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算法 是 机 器 的 灵魂 ; 机 器 学 习 可 以 理解 成 是 产生 算法 的 算法 ; 深度 学 习 可 以 自动 提取 特 
征 ; AutoML 则 可 以 自动 寻找 最 合适 的 神经 网 络 拓扑 结构 。 不 断 演进 的 算法 在 日 益 强大 的 计 
算 能 力 支撑 下 能 处 理 越 来 越 复杂 的 任务 。 本 书 是 一 本 很 好 的 深度 学 习 人 门 读物 ， 从 机 器 学 习 
的 基本 概念 过 渡 到 深度 神经 网 络 的 原理 和 应 用 ， 并 延伸 到 网 络 的 一 些 变种 和 新 的 特性 。 读 完 
此 书 可 以 全 面 了 解 深度 学 习 以 及 TensorFlow 开源 框架 的 相关 内 容 ， 你 可 以 感受 到 其 实 深度 学 
习 并 不 神秘 ， 人 工 智 能 的 未 来 人 类 完全 可 以 掌控 。 

一 一 朱 频 频 ， 小 1 机 器 人 创始 人 、 首 席 执 行 官 


“把 简单 问题 讲 复杂 很 简单 ， 把 复杂 问题 讲 简单 很 复杂 ”"， 大 数据 、 深 度 学 习 都 是 极其 复 
杂 的 问题 ， 我 曾经 想 过 写本 书 ， 用 通俗 易 懂 的 方式 介绍 大 数据 与 深度 学 习 的 方方面面 ， 现 在 
看 来 不 需要 了 ， 高 扬 先 生 这 套 白话 系列 图 文 并 茂 、 深 入 浅 出 又 不 失学 术 性 ， 非 常 值 得 研读 。 

一 一 王 庆 法 ， 阳 光 保 险 集团 大 数据 中 心 副 总 经 理 兼 首席 架构 师 、 
平台 部 总 经 理 ， 首 席 数据 官 联盟 专家 组 成 员 


在 看 到 这 本 书 的 样 章 的 时 候 ，AlphaGo 2.0 正 以 3 : 0 的 比分 大 胜 了 围棋 世界 排名 第 一 的 
柯 洁 。 街 头 埠 尾 的 男男女女 都 在 谈论 着 AlphaGo 的 神奇 力量 ,仿佛 一 夜 之 间 ， 人 工 智能 成 为 
了 最 火爆 的 时 尚 名 词 。 很 多 人 都 在 讨论 着 ， 未 来 是 机 器 人 的 世界 ， 机 器 会 统治 世界 吗 ， 人 类 
还 有 未 来 吗 ?作为 技术 的 专业 人 员 ， 无 论 大 家 的 讨论 有 多 么 荒 雇 ， 我 们 都 意识 到 一 场 新 的 科 
技 革命 已 经 开始 了 ， 终 将 改变 人 类 的 未 来 。 但 是 对 于 人 工 智能 ， 大 家 都 会 有 自己 的 理解 ， 很 
多 观点 是 负面 的 ， 甚 至 是 荒 记 的 。 作 为 专业 技术 人 员 ， 我 们 应 该 更 好 地 去 帮助 大 家 认识 人 工 
智能 是 什么 以 及 它 是 如 何 运作 的 ， 让 大 家 更 客观 、 浅 显 地 理解 这 个 技术 变革 。 可 大 部 分 关于 
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人 工 智能 的 著作 ， 都 偏 于 技术 专业 性 ， 而 不 容易 为 普通 学 习 者 所 理解 。 而 非 专业 的 媒体 ， 很 
多 观点 又 是 如 此 不 切实 际 。 本 书 是 关于 人 工 智能 的 关键 技术 深度 学 习 的 科普 著作 。 看 到 了 本 
书 ， 笔 者 不 由 眼前 一 亮 。 关 于 技术 观点 的 讲解 即 不 乏 专业 性 ， 又 以 浅显 的 例子 告诉 普通 人 ， 
机 器 学 习 是 什么 。 一 本 非常 好 的 科普 性 的 技术 著作 ， 和 希望 更 多 的 人 可 以 通过 作者 的 文字 , E 
正 理解 人 工 智能 的 关键 技术 一 一 深度 学 习 的 原理 及 实际 未 来 的 前 景 。 也 期 待 更 多 的 爱好 者 ， 
由 此 书 可 以 加 入 到 深度 学 习 工 作 中 ， 为 未 来 人 工 智能 的 发 展 写 下 浓重 的 一 笔 。 


一 一 王 海 龙 ， 秒 钱 CTO 
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时 代 的 巨轮 已 经 怠 人 了 21 世纪 第 二 个 十 年 的 后 半 ， 科 技 的 发 展 速度 一 次 一 次 超越 我 们 
的 想象 力 ， 给 我 们 带 来 无 限 的 惊喜 。 

近 两 年 最 为 吸 睛 的 当 属 谷歌 的 阿尔 法 围棋 程序 大 胜 人 类 围棋 大 师 一 先 有 李 世 至 九段 不 
敌 ， 后 有 柯 洁 九 段落 败 ， 围 棋 这 样 一 个 长 期 以 来 人 类 一 直 可 以 傲视 人 工 智能 的 领域 也 被 计算 
机 所 征服 。 

到 现在 ， 千 机 器 人 来 扫地 ， 靠 刷 脸 来 取 钱 ， 靠 自动 驾驶 来 周游 世界 已 然 不 是 什么 科幻 小 
说 中 的 内 容 了 ， 这 些 事情 已 经 真实 地 发 生 在 我 们 的 身边 。 

人 工 智能 正在 逐渐 在 每 个 细节 上 改变 我 们 的 生产 能 力 ， 改 变 我 们 的 生活 。 

这 种 可 以 把 人 从 大 量 繁 宛 重复 的 劳动 中 解放 出 来 的 高 新 科技 领域 在 未 来 二 三 十 年 ， 甚 至 
更 为 长 远 的 时 间 内 都 会 是 最 为 吸引 人 的 研究 方向 。 

包括 深度 学 习 在 内 的 人 工 智 能 应 用 技术 在 每 个 人 类 涉足 的 领域 都 将 发 挥 越 来 越 大 的 
作用 。 

我 坚信 ， 和 其 他 历史 上 出 现 过 的 先进 技术 一 样 ， 这 些 知识 与 技术 将 越 来 越 平民 化 ， 就 像 
PC 一 样 逐 渐 成 为 每 个 人 在 工作 中 都 不 可 或 缺 的 工具 。 

我 想 每 一 个 时 代 的 弄潮儿 都 不 应 错过 在 这 波澜 壮阔 的 历史 新 纪元 中 的 每 一 休 浪 花 。 

这 本 书 概念 清晰 ， 语 言 平实 ， 实 例 讲解 丰富 ， 是 一 本 非常 适合 人 门 的 深度 学 习 读 本 ， 尤 
其 是 对 公式 推导 做 了 最 大 程度 的 白话 解释 与 避让 ， 使 得 可 读 性 大 大 增强 。 

相信 每 位 读者 都 能 从 中 汲取 到 相应 的 知识 与 启发 。 


一 一 李 学 凌 ， 欢 聚 时 代 董 事 长 兼 CEO 
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为 什么 要 写 这 本 书 


近 些 年 来 ， 伴 随 着 计算 机 计算 能 力 的 不 断 升 级 ， 很 多 原来 只 有 在 科幻 电影 里 才 有 的 桥 段 
越 来 越 多 地 出 现在 我 们 身边 了 ， 并 给 了 我 们 更 多 的 想象 空间 与 期 待 。 

在 2016 年 ， 人工 智 能 界 最 令 人 瞩目 的 事情 莫 过 于 谷歌 的 AlphaGo 以 4:1 的 悬殊 比分 轻 
松 击败 韩国 著名 九段 围棋 大 师 李 世 石 。 之 后 化 名 “Master” 的 AlphaGo 更 是 一 路 大 开 杀 戒 ， 
分 别 在 对 弈 网 站 “ 弈 城 ” 和 “腾讯 围棋 ”登录 ， 先 后 打败 了 柯 洁 九 段 、 朴 廷 桓 九段 、 陈 耀 烨 
九段 以 及 创造 日 本 大 满 贯 传奇 的 井 山 裕 太 和 亚洲 杯 冠 军 李 钦 诚 等 世界 一 流 高 手 ， 取 得 了 50 
胜 0 负 的 战绩 2 。 当 然 了 ,“ 玩 不 起 ”的 人 类 最 终 觉 得 让 AlphaGo 在 国际 围棋 网 站 排名 上 占 一 
个 坑 来 碾 压 人 类 是 非常 “不 公平 ”的 事情 ， 最 终 把 人 家 给 拉 黑 了 。 

人 类 这 么 做 是 不 是 有 违 AI (Artificial Intelligence, A TE f£) 研究 的 初衷 暂 且 不 讨论 ， 
毕竟 我 们 的 眼光 还 是 应 该 更 多 地 投向 那些 
“更 有 趣 ” 的 领域 。 除 此 之 外 ， 还 有 很 多 非 
常 有 趣 的 人 工 智 能 项 目 也 经 常 在 网 络 视频 
中 带 给 我 们 惊喜 ， 比 如 谷歌 的 机 械 狗 、 谷 
歌 的 无 人 驾驶 汽车 等 。 

这 种 机 械 狗 很 有 趣 ， 除 了 能 够 彼此 之 
间 互 相 协调 进行 编队 行进 以 外 ， 还 能 像 真 
的 狗 一 样 在 被 踢 了 一 脚 之 后 迅速 调整 重心 ， 
并 在 短暂 的 跟 踊 后 站 稳 ， 然 后 继续 先前 作 
业 ， 不 过 怎么 踢 都 不 会 来 咬 你 。 





Ө ”消息 来 源 于 网 易 科技 http://tech.163.com/17/0104/08/C9U3JUON00098GJ5.html， 有 删改 。 
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而 谷歌 的 无 人 驾驶 汽车 也 有 着 非常 优异 的 能 力 ， 到 2015 年 11 月 底 为 止 ， 根 据 谷 歌 提交 
给 机 动车 辆 管理 局 的 报告 ， 谷 歌 的 无 人 驾驶 汽车 在 自动 模式 下 已 经 完成 了 130 多 万 英里 的 
里 程 。 

可 以 说 ， 这 些 事情 都 在 鼓舞 着 我 们 这 些 对 未 来 世界 充满 渴望 的 人 投入 更 多 的 精力 去 研究 
AI 带 来 的 新 惊喜 ， 而 人 工 智能 这 一 领域 中 最 为 核心 的 内 容 之 一 就 是 深度 学 习 。 深 度 学 习 现 在 
在 全 世界 范围 内 都 有 着 众多 的 专业 工作 者 和 业余 爱好 者 在 进行 着 研究 ， 并 且 每 个 月 都 有 不 少 
新 的 落地 产品 问世 。 应 该 说 ， 深 度 学 习 是 目前 世界 上 最 热门 的 研究 领域 之 一 ， 而 且 也 是 未 来 
几 十 年 最 热门 的 研究 方向 之 一 。 

在 中 国 ， 深 度 学 习 也 有 着 众多 的 专业 研究 机 构 和 业余 爱好 者 ， 在 我 的 周围 就 有 数 以 千 计 
的 深度 学 习 爱 好 者 一 一 这 一 点 都 不 夸张 ， 他 们 非常 渴望 了 解 深度 学 习 的 知识 并 加 以 应 用 。 但 
是 ， 深 度 学 习 由 于 其 本 身 的 复杂 性 ， 使 得 很 多 有 着 浓厚 兴趣 的 爱好 者 望而却步 ， 我 认为 主要 
的 门槛 来 自 于 两 个 方面 。 

一 方面 ， 深 度 学 习 是 非常 典型 的 计算 密集 型 的 应 用 领域 ， 家 用 PC 机 通常 是 无 法 有 效 胜 
任 一 个 完整 而 可 靠 的 深度 学 习 应 用 的 (作为 初级 实验 或 者 “玩具 ”的 除外 )。 不 过 现在 随 着 
CPU 的 计算 速度 逐步 加 快 ， 以 及 GPU 应 用 的 不 断 普及 ， 这 方面 的 门槛 在 慢 慢 地 降低 。 

另 一 方面 ， 深 度 学 习 从 其 解决 问题 的 根本 理论 方面 需要 比较 深厚 和 扎实 的 数学 基础 ， 尤 
其 是 高 等 数学 、 线 性 代数 、 泛 函 分 析 及 其 延伸 学 科 的 基础 ， 这 就 使 得 很 多 高 等 数学 相关 基础 
不 好 的 朋友 学 习 起 来 非常 吃力 。 当 然 ， 这 一 方面 目前 可 以 走 的 捷径 也 不 是 没有 ， 我 们 可 以 通 
过 现成 的 框架 (比如 TensorFlow, Torch, Caffe 或 Theano 等 ) 来 搭建 环境 ， 并 用 简单 的 代码 
或 模型 描述 文件 来 组 建 一 个 相对 完整 的 神经 网 络 进行 学 习 和 分 类 应 用 。 

除 此 之 外 ， 像 Caffe 还 有 一 个 叫做 Model Zoo 的 共享 社 群 一 一 这 是 一 个 让 大 家 把 已 经 训 
练 好 的 模型 放 在 上 面 做 共享 的 社 群 。 在 模型 训练 中 ， 前 面 大 量 耗 时 的 分 析 和 建 模 工作 以 及 训 
练 后 得 到 的 最 宝贵 的 模型 成 果 就 可 以 浓缩 并 沉淀 为 一 个 可 下 载 的 模型 描述 文件 ， 里 面 是 网 络 
的 节点 权重 和 拓扑 结构 信息 。 这 种 社 群 化 的 方式 会 让 很 多 原本 没有 太 好 训练 条 件 的 朋友 有 了 
可 以 学 习 和 借鉴 的 对 象 , 也 有 了 可 以 游乐 和 尝试 的 空间 。 这 些 模 型 需要 在 其 各 自 的 授权 使 用 
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协议 下 合理 使 用 ， 有 的 是 允许 进行 商业 应 用 和 改动 ， 而 有 的 则 不 可 以 ， 这 一 点 需要 注意 。 在 
下 载 后 ， 我 们 可 以 对 其 进行 Fine Tuning， 也 就 是 进行 细节 调 优 或 改进 性 训练 ， 使 得 这 些 模型 
可 以 在 自己 需要 的 环境 和 条 件 下 更 好 地 工作 。 不 过 这 个 地 方 还 是 有 一 个 门槛 ， 对 于 很 多 数学 
能 力 欠 佳 的 工程 师 来 说 ， 不 容易 迈 过 去 ， 那 就 是 训练 和 调 优 中 的 方向 性 问题 。 一 旦 出 现 召 回 
率 和 准确 率 不 再 提高 ， 或 者 性 能 等 问题 ， 往 往 会 找 不 到 改进 的 方向 和 方法 ， 这 是 需要 扎实 的 
数学 基础 和 深度 学 习 领 域 的 实践 经 验 来 解决 的 。 

我 们 这 本 书 的 宗 骨 很 简单 ， 就 是 希望 通过 聊天 和 讲 故 事 的 方式 ， 和 凭借 高 中 以 上 水 平 的 数 
学 知识 把 大 家 一 步 一 步 地 带 人 深度 学 习 的 领域 。 只 要 大 家 在 阅读 本 书 的 时 候 保持 一 点 点 而 
心 ， 即 便 没 有 高 等 数学 知识 的 朋友 ， 通 过 努力 也 一 样 可 以 基本 掌握 深度 学 习 的 应 用 技巧 。 请 
ARERR, nm! 


本 书 特 色 


本 书本 着 “平民 ”起 点 ， 从 “ 零 ”开始 的 初衷 ,介绍 深度 学 习 的 技术 与 技巧 ， 逐 层 铺垫 ， 
把 微 积分 、 梯 度 等 知识 重点 化 整 为 零 ， 把 学 习 曲 线 最 大 程度 地 拉平 ， 让 读者 有 良好 的 代入 感 
和 亲近 感 。 

本 书 用 漫画 插图 来 调节 阅读 气氛 ， 并 且 在 每 个 讲解 的 部 分 都 有 对 比 和 实例 说 明 ， 相 信 每 
位 读者 都 能 感受 到 非常 好 的 阅读 平滑 感 。 


读者 对 象 


QU 对 深度 学 习 有 兴趣 但 数学 基础 弱 的 开发 人 员 与 架构 师 
O 科研 院 所 的 研究 人 员 

口 对 深度 学 习 有 兴趣 的 大 学 生 、 研 究 生 

O 其 他 深度 学 习 爱 好 者 ， 如 产品 经 理 、 投 资 人 、 管 理 者 等 


如 何 阅 读本 书 


本 书 基本 独立 成 册 ， 适 用 于 零 基 础 的 初学 者 ， 但 仍 建议 以 本 书 姊妹 篇 《白话 大 数据 与 机 
器 学 习 》 为 引导 读物 。 本 书 共 分 三 篇 ， 共 13 章 。 

基础 篇 (第 1 一 3 章 ), 介绍 一 些 非常 基础 的 概念 铺垫 ， 以 便 了 解 背景 。 

原理 与 实践 篇 (第 4 一 8 章 )， 介 绍 老牌 的 深度 学 习 网 络 的 数学 原理 和 工程 实现 原理 。 万 
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其 是 第 4 章 ， 如 果 读 者 能 基本 读 懂 ， 后 面 的 网 络 实现 层面 的 问题 基本 都 可 以 迎刃而解 。 
扩展 篇 (第 9 一 13 章 )， 介 绍 一 些 网 络 的 变种 和 一 些 较 新 的 网 络 特性 。 

其 实 当 你 把 这 本 书 看 完 后 ， 就 会 知道 这 种 技术 的 底层 原理 虽然 略 显 复杂 ， 但 是 在 框架 逐 
步 成 熟 以 及 开源 项 目 日 益 增 加 的 情况 下 ， 对 于 应 用 市 场 层 面 的 技术 人 员 来 说 ， 真 正 要 做 的 工 
作 已 经 不 是 书写 复杂 的 算法 了 一 一 这 些 都 已 经 被 很 好 地 封装 到 内 聚 性 极 高 的 框架 中 ， 而 且 开 
放 了 友好 的 接口 和 足够 多 的 参数 给 使 用 者 做 调整 。 这 样 一 来 ， 最 重要 的 工作 反而 是 海量 样本 
的 低 成 本 获取 和 丰富 的 计算 资源 的 获取 。 因 此 从 这 个 角度 来 看 ， 我 可 以 负责 任 地 说 ， 深 度 
学 习 领 域 的 门槛 在 一 定 程度 上 应 该 说 比 传统 机 器 学 习 的 还 要 低 。 当 读 完 这 本 书 时 ， 你 就 会 发 
现 ， 深 度 学 习 真 的 不 难 。 


勘误 和 支持 


由 于 笔者 的 水 平 有 限 ， 编 写 时 间 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 ， 奶 
请 读者 批评 指正 。 如 果 你 有 更 多 的 宝贵 意见 ， 欢 迎 扫描 下 方 的 二 维 码 ， 关 注 奇 点 大 数据 微 
信 公 众 号 qddata 和 我 们 进行 互动 讨论 。 当 然 ， 在 公众 号 的 消息 中 你 也 可 以 找到 书 中 的 代码 
地 址 和 QQ 讨论 群 305232547 的 信息 。 本 书 提供 的 所 有 代码 也 将 放 在 : https:/github.com/ 
azheng333/DeepLearningAndTensorFlow ; 





同时 ， 你 也 可 以 通过 邮箱 77232517@qq.com 联系 到 我 ， 期 待 能 够 得 到 大 家 的 真挚 反馈 ， 
ТЕК В ЕНЕ, 

在 此 ， 感 谢 辽 宁 工程 大 学 副教授 (海归 博士 后 ) 常 熏 博士 、 山 东 交 通 学 院 理学 院 讲师 许 
文 杰 博 士 、 许 昌 学 院 信息 王 程 学 院 讲师 姚 丹 丹 博士 在 审 校 工作 方面 的 支持 与 帮助 ， 以 及 深圳 
华为 技术 有 限 公司 的 万 娟 女士 在 插画 方面 对 本 书 的 大 力 支 持 。 
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Cheyer е 第 1 章 


eR 机器 学 习 是 什么 


机 器 学 习 是 一 个 跟 “ 大 数据 ”一 样 近 几 年 格外 火 的 词汇 。 我 们 在 了 解 深度 学 习 之 前 ， 
还 是 有 必要 了 解 和 认识 机 器 学 习 这 个 词 的 。 机 器 学 习 究 竟 是 一 个 什么 过 程 或 者 行为 呢 ? 

机 器 学 习 一 我们 先 想 想 人 类 学 习 的 目的 是 什么 ?是 掌握 知识 、 掌 握 能 力 、 掌 握 技巧 ， 
最 终 能 够 进行 比较 复杂 或 者 高 要 求 的 工作 。 那 么 类 比 一 下 机 器 ， 我 们 让 机 器 学 习 ， 不 管 学 
习 什 么 ， 最 终 目的 都 是 让 它 独 立 或 至 少 半 独 立地 进行 相对 复杂 或 者 高 要 求 的 工作 。 我 们 在 
这 里 提 到 的 机 器 学 习 更 多 是 让 机 器 帮助 人 类 做 一 些 大 规模 的 数据 识别 、 分 拣 、 规 律 总 结 等 
人 类 做 起 来 比较 花 时 间 的 事情 。 这 个 就 是 机 器 学 习 的 本 质 性 目的 。 

在 人 类 发 展 的 历史 长 河中 ， 机 器 逐步 代替 人 的 生产 工作 是 一 个 不 可 逆转 的 趋势 一 从 
原始 人 的 刀 耕 火种 ， 氏 族 部 落 大 量 原始 人 共同 使 用 极为 原始 的 工具 共同 狩猎 ， 到 后 来 随 着 
生产 力 发 展 和 工种 分 化 的 不 断 相互 刺激 ， 越 来 越 多 的 工具 出 现 ， 代 替 了 原本 生产 所 需要 的 
众多 人 工 。 

在 近 现代 ， 尤 其 是 第 一 次 和 第 二 次 工业 革命 之 后 ， 化 石 能 源 驱动 的 高 能 量 的 机 器 再 一 
次 在 更 多 的 领域 取代 人 力 、 畜 力 ， 大 大 改善 了 人 类 的 生产 效率 。 

在 信息 革命 之 后 ， 随 着 计算 机 的 计算 能 力 增强 ， 以 及 在 计算 机 算法 领域 新 理论 、 新 技 
术 的 逐渐 发 展 ， 机 器 也 逐渐 代替 人 ， 参 与 到 更 多 的 带 有 “一 定 的 智能 性 ”的 信息 分 拣 与 识 
别 的 工作 中 来 。 这 里 面 我 们 着 重要 提 一 下 这 个 “一 定 的 智能 性 ”。 

算法 这 种 东西 在 最 初出 现 的 时 候 是 一 种 确定 性 的 机 器 指令 执行 序列 ， 也 就 是 说 ， 机 器 
需要 怎么 做 是 早 在 程序 一 开始 就 设 定好 的 。 虽 然 说 在 程序 执行 的 过 程 中 可 以 依靠 有 限 的 参 
数 对 程序 执行 过 程 所 涉及 的 对 象 、 执 行 次 数 、 执 行 分 支 条 件 等 进行 设 定 ， 但 是 基本 行为 逻 
辑 已 经 大 抵 确 定 。 在 这 个 过 程 中 ， 机 器 一 一 计算 机 是 非常 被 动 的 ， 它 老 老 实 实地 严格 执行 


ww ai БЫ. сот 60 00000 


第 1 章 机 器 学 习 是 什么 S 3 


程序 员 赋予 它 的 指令 执行 序列 ， 没 有 任何 “学 习 ” 的 行为 。 这 也 没 办 法 ， 因 为 最 开始 的 图 
灵机 模型 在 设计 的 时 候 就 是 期 望 计算 机 以 这 种 方式 工作 的 。 

而 机 器 学 习 这 个 领域 的 思路 就 与 刚才 我 们 所 说 的 这 样 一 个 形式 有 很 大 的 区 别 。 我 们 以 
有 监督 学 习 的 过 程 为 例 ， 例 如 有 一 个 分 类 器 ,可 以 将 输入 的 邮件 分 找 为 “普通 邮件 ”和 “ 垃 
圾 邮件 ”两 个 类 别 。 但 是 对 于 垃圾 邮件 的 判断 标准 不 是 在 程序 运行 伊始 给 出 的 ， 而 是 在 给 
予 分 类 器 大 量 垃圾 邮件 后 ， 由 分 类 器 对 垃圾 邮件 样本 的 各 种 特征 进行 统计 和 归纳 ， 进 而 得 
到 的 。 





在 这 个 训练 过 程 中 ， 给 予 分 类 器 的 大 量 被 标注 为 垃圾 邮件 的 邮件 ， 称 为 训练 样本 
(training sample)。 分 类 器 对 垃圾 邮件 样本 的 特征 进行 统计 和 归纳 的 过 程 称 为 训练 (traning)。 
总 结 出 的 判断 标准 ， 我 们 称 为 分 类 模型 。 与 此 同时 ， 我 们 还 会 拿 其 他 一 些 “ 普 通 邮件 ”和 
“垃圾 邮件 ”给 予 分 类 器 ， 让 它 尝 试 根据 刚刚 总 结 好 的 分 类 模型 进行 分 类 ， 看 看 它 分 类 的 正 
确 性 是 否 确 实 具 有 泛 化 性 ( generalization)， 这 个 步 又 我 们 称 为 验证 ( validation)。 这 个 过 程 
主要 是 为 了 验证 从 训练 样本 中 归纳 总 结 出 来 的 数据 关系 是 否 能 够 迁移 。 在 此 之 后 ， 我 们 还 
会 使 用 一 定量 的 “普通 邮件 ”和 “垃圾 邮件 ”去 测试 (testing) 这 个 模型 的 识别 能 力 ， 看 看 
是 不 是 在 我 们 业务 允许 的 范围 内 。 这 是 一 个 基本 完整 的 有 监督 学 习 (supervised learning) 的 
学 习 过 程 。 

其 他 的 有 监督 学 习 的 场景 也 极为 类 似 ， 都 是 基于 训练 样本 做 训练 和 使 用 验证 数据 集 验 
证 。 在 这 个 过 程 中 我 们 不 难看 出 ， 最 后 整个 分 类 器 工具 投入 生产 环境 对 外 提供 服务 的 工作 
方式 不 是 我 在 程序 里 事先 写 好 的 ， 而 是 先 对 给 予 的 样本 进行 总 结 得 出 分 类 规则 (标准 )， 之 
后 根据 这 个 规则 进行 分 类 操作 。 这 是 一 个 非常 形象 的 “机 器 学 习 ” 的 过 程 ， 它 在 这 个 过 程 
中 自己 学 会 了 怎么 样 进行 正确 地 区 分 事物 。 这 是 不 是 很 有 趣 呢 ? 

机 器 学 习 从 学 习 的 种 类 来 说 ， 最 常见 的 我 们 习惯 分 作 两 种 ， 一 种 叫 无 监督 学 习 
(unsupervised learning)， 一 种 叫 有 监督 学 习 ( supervised learning ) ө. 所谓“ 无 监督 学 习 ”， 


Ө 除 此 之 外 还 有 半 监 督学 习 (semisupervised learning) 和 强化 学 习 (reinforcement learning) 等 种 类 。 
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是 指 人 们 在 获得 训练 的 向 量 数据 后 在 没有 标签 的 情况 下 尝试 找 出 其 内 部 蕴含 关系 的 一 种 挖 
据 工 作 ， 这 个 过 程 中 使 用 者 除了 可 能 要 设置 一 些 必要 的 超 参 数 (hyper-parameter) ЦК, Ж 
用 对 这 些 样本 做 任何 的 标记 甚至 是 过 程 干 预 ; “有 监督 学 习 ” 与 此 不 同 ， 每 一 个 样 未 都 有 着 
明确 的 标签 ， 最 后 我 们 只 是 要 总 结 出 这 些 训 练 样本 向 量 与 标签 的 映射 关系 。 所 以 这 在 这 两 
种 方式 下 ， 处 理 的 逻辑 有 很 大 的 区 别 , 初学 的 朋友 需要 格外 注意 。 


1.4 ЖЖ 


RA (clustering) 是 一 种 典型 的 “无 监督 学 习 "， 是 把 物理 对 象 或 抽象 对 象 的 集合 分 组 
为 由 彼此 类 似 的 对 象 组 成 的 多 个 类 的 分 析 过 程 。 

取 类 这 种 行为 我 们 不 要 觉得 很 神秘 ， 也 不 要 觉得 这 个 东西 是 机 器 学 习 所 独 有 的 ， 恰 恰 
相反 ， 聚 类 的 行为 本 源 还 是 人 自身 。 我 们 学 习 的 所 有 的 数据 挖掘 或 者 机 器 学 习 的 算法 或 者 
思想 的 来 源 都 是 人 类 自己 的 思考 方式 ， 只 不 过 我 们 把 它 教 给 机 器 代劳 ， 让 机 器 成 为 我 们 肢 
体 和 能 力 的 延伸 ， 而 不 是 让 它们 替 我 们 做 创造 和 思考 。 

聚 类 是 一 种 什么 现象 呢 ? 我 们 人 类 在 认识 客观 世界 的 过 程 中 其 实 一 直 过 到 容量 性 的 问 
题 ， 我 们 过 到 的 每 一 棵 树 、 每 一 末 花 、 每 一 只 昆虫 、 每 一 头 动 物 、 每 一 个 人 、 每 一 栋 建 
筑 …… 每 个 个 体 之 间 其 实 都 不 同 ， 有 的 差距 还 相当 大 那么 我 们 人 在 认 知 和 记忆 这 些 客观 
事物 的 过 程 中 就 会 异常 痛苦 ， 因 为 量 实在 是 大 到 无 法 承受 的 地 步 。 

因此 人 类 才 会 在 “ 自 底 向 上 ”的 认识 世界 的 过 程 中 “偷懒 ' 性 地 选择 了 归纳 归 类 的 方式 ， 
注意 “偷懒 ”的 这 种 方式 是 人 类 与 生 俱 来 的 方法 。 

小 时 候 ， 我 们 被 父母 用 看 图 说 话 的 方式 来 教 蜂 呀 学 语 就 有 过 类 似 的 体会 了 ,图 片上 夯 
了 一 只 猴子 ， 于 是 我 们 就 认识 了 , 这 是 一 只 猴子 ;图 片上 画 了 一 辆 汽车 ， 于 是 我 们 就 了 解 
了 ， 这 是 一 辆 汽车 …… 当 我 们 上 街 或 者 去 动物 园 的 时 候 再 看 ， 猴 子 也 不 是 画 上 的 猴子 ， 而 
且 众 多 猴子 之 间 也 长 得 各 式 各 样 ， 每 个 都 不 同 ， 我 们 会 把 它们 当成 一 个 一 个 的 新 事物 去 认 
iu? 我 们 看 汽车 也 同样 ， 大 小 、 颜 色 、 样 式 ， 甚 至 喇叭 的 声音 也 是 形形色色 、 五 花 八 门 ， 
它们 在 我 们 眼 里 是 一 个 个 新 的 事物 吗 ? 不 ， 它 们 都 还 是 汽车 。 这 些 事物 之 间 确 实 有 所 不 同 ， 
但 是 它们 给 我 们 的 认 知 带 来 了 很 大 的 困扰 吗 ? 并 没有 。 我 们 无 论 如 何 也 不 会 把 猴子 和 汽车 
当成 一 类 事物 去 认 知 的 ， 猴 子 彼此 之 间 是 不 同 ,但 是 体格 、 毛 发 、 行 为 举止 ， 种 种 形态 让 
我 们 认为 这 些 不 同 种 类 的 猴子 都 还 是 猴子 一 个 大 类 的 动物 ， 别 说 是 和 汽车 混为一谈 ， 就 是 
跟 狗 、 马 、 熊 这 些 哺 乳 动物 也 能 轻易 地 分 开 。 

人 类 天 生 具 备 这 种 归纳 和 总 结 的 能 力 ， 能 够 把 认 知 的 相似 事物 放 到 一 起 作为 一 类 事物 ， 
它们 之 间 可 以 有 彼此 的 不 同 ,但 是 有 一 个 我 们 心里 的 “限度 "， 只 要 在 这 个 限度 内 ， 特 征 稍 
有 区 别 并 无 大 碍 ， 它 们 仍然 还 是 这 一 类 事物 。 

在 这 一 类 事物 的 内 部 ， 同 样 有 这 种 现象 ， 一 部 分 个 体 之 间 比 较 相 近 ， 而 另 一 部 分 个 体 
之 间 比 较 相近 ， 我 们 人 还 能 够 明显 认 知 到 差别 ， 那 么 大 类 别 又 可 以 细 分 为 小 类 别 进行 认 知 。 
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比如 汽车 直观 从 样子 上 可 以 分 成 小 轿车 、 卡 车 、 面 包车 等 种 类 ， 虫 子 们 也 被 人 轻易 地 从 外 
JÉ EK Ke, md. EER- 

在 没有 人 特意 教 给 我 们 不 同 小 种 群 的 称谓 与 特性 之 前 ， 我 们 自然 具备 的 这 种 凭借 主观 
认 知 的 能 力 一 一 特征 形态 的 相同 或 近似 的 划 在 一 个 概念 下 ， 特 征 形态 不 同 的 划 在 不 同 概念 
下 ， 这 本 身 就 是 “ 聚 类 ”的 思维 方式 。 

比较 常用 的 聚 类 算法 有 K-Means, DBSCAN 等 几 种 ， 基 本 思路 都 是 利用 每 个 向 量 之 间 
的 “距离 ” 空间 中 的 欧 氏 距离 或 者 曼哈顿 距离 ， 从 远近 判断 是 否 从 属于 同一 类 别 。 假 
如 有 三 个 一 维 样本 : 一 个 180、 一 个 179、 一 个 150， 如 果 这 三 个 向 量 要 分 成 两 类 的 话 ， 应 
该 是 180 和 179 这 两 个 分 在 一 个 类 别 ，150 是 男 一 个 类 别 。 因 为 180 和 179 的 距离 为 1， ifi 
150 距离 180 与 179 分 别 为 30 和 29 个 单位 一 一 非常 远 ， 就 是 从 肉眼 感官 上 来 看 也 是 这 样 。 
用 机 器 来 做 学 习 的 话 ， 它 也 能 够 通过 算法 自动 去 感知 到 这 些 向 量 之 间 的 距离 ， 然 后 将 那些 
彼此 之 间 靠 得 近 的 分 在 一 起 ， 以 区 别 于 其 他 类 簇 。 


(A) (B= 
RU MED. 


在 用 机 器 做 聚 类 学 习 的 时 候 ， 我 们 每 种 算法 都 对 应 有 相应 的 计算 原则 ， 可 以 把 输入 的 
各 种 看 上 去 彼此 “相近 ”的 向 量 分 在 一 个 群 组 中 。 然 后 下 一 步 ， 人 们 通常 更 有 针对 性 地 去 
研究 每 一 组 聚 在 一 起 的 对 象 所 拥有 的 共性 以 及 那些 远离 各 个 群 组 的 孤立 点 一 一 这 种 孤立 点 
研究 在 刑侦 、 特 殊 疾病 排查 等 方面 都 有 应 用 。 

在 这 个 过 程 中 ， 从 获得 到 具体 的 样本 向 量 ， 到 得 出 聚 类 结果 ， 人 们 是 不 用 进行 干预 的 ， 
这 就 是 “ 非 监督 ”一 词 的 由 来 。 





1.2 ”回归 


回归 是 一 种 解 题 方法 ， 或 者 说 “学 习 ” 方 法 ， 也 是 机 器 学 习 中 比较 重要 的 内 容 。 

回归 的 英文 是 regression， 单 词 原型 regress 的 意思 是 “ 回 退 ， 退 化 ， 倒 退 ”。 其 实 
regression 一 一 回归 分 析 的 意思 是 借用 里 面 “ 倒 退 ， 倒 推 ” 的 含义 。 简 单 说 就 是 “由 果 索 因 ” 
的 过 程 ， 是 一 种 归纳 的 思想 一 一 当 我 看 到 大 量 的 事实 所 呈现 的 样 态 ， 我 推断 出 原因 或 客观 
蕴含 的 关系 是 如 何 的 ;， 当 我 看 到 大 量 的 观测 而 来 的 向 量 (数字 ) 是 某 种 样 态 ， 我 设计 一 种 假 
说 来 描述 它们 之 间 北 含 的 关系 是 如 何 的 。 | 

在 机 器 学 习 领 域 ， 最 常用 的 回归 有 两 大 类 一 一 一 类 是 线性 回归 ， 一 类 是 非 线 性 回归 。 

所 谓 线 性 回归 ， 就 是 在 观察 和 归纳 样本 的 过 程 中 认为 向 量 和 最 终 的 函数 值 呈 现 线性 的 
关系 。 而 后 设计 这 种 关系 为 : 
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y=f(x)=wxt+b 
这 里 的 w 和 x 分 别 是 1xn 和 nx1 的 和 矩阵，wb 则 指 的 是 这 两 个 矩阵 的 内 积 。 具 象 一 点 说 ， 
例如 ， 如 果 你 在 一 个 实验 中 观察 到 一 名 病 患 的 几 个 指标 呈现 线性 关系 (注意 这 个 是 大 前 提 ， 
如 果 你 观察 到 的 不 是 线性 关系 而 用 线性 模型 来 建 模 的 话 ， 会 得 到 欠 拟 合 的 结果 )。 拿 到 的 x 
是 一 个 5 维 的 向 量 ， 分 别 代表 一 名 患者 的 年 龄 、 身 高 、 体 重 、 血 压 、 血 脂 这 几 个 指标 值 ，? 
标签 是 描述 他 们 血糖 程度 的 指标 值 ，x 和 y 都 是 观测 到 的 值 。 在 拿 到 大 量 样本 (就 是 大 量 的 
xAly) 后 ， 我 猜测 向 量 (年 龄 ， 身 高 ， 体 重 ， 血 压 ， 血 脂 ) 和 与 其 有 关联 关系 的 血糖 程度 y 
值 有 这 样 的 关系 : 
y=w,X ER +w X 身高 十 Ww;X 体重 十 wsX 血压 十 w;X 血脂 十 b 
那么 就 把 每 一 名 患者 的 〈 年 龄 ， 身 高 ， 体 重 ， 血 压 ， 血 脂 ) 具体 向 量 值 代入 ， 并 把 其 血糖 程 
度 y 值 也 代入 。 这 样 一 来 ， 在 所 有 的 患者 数据 输入 后 ， 会 出 现 一 系列 的 六 元 一 次 方程 ， 未 
知 数 是 w ~ ws 和 5b 一 一 也 就 是 w 矩阵 的 内 容 和 偏 置 b 的 内 容 。 而 下 面 要 做 的 事情 就 是 要 对 
w 和 矩阵 的 内 容 和 偏 置 5b 的 内 容 求 出 一 个 最 “合适 ”的 解 来 。 这 个 “合适 ”的 概念 就 是 要 得 
到 一 个 全 局 范围 内 由 foc) 映射 得 到 的 y 和 我 真实 观测 到 的 那个 y 的 差距 加 和 ， 写 出 来 是 这 种 
方式 : 
Loss = Ў их, +Ь— y, | 


i=l 


怎么 理解 这 个 Loss f & XOT 右面 的 六 表示 加 和 ， 相 当 于 做 一 个 一 个 循环 ，; 是 循环 


变量 ， 从 1 做 到 n， 禾 盖 训 练 集 当 中 的 每 一 个 样本 向 量 。 加 和 的 内 容 是 wtb 和 yi 的 差 值 ， 
每 一 个 训练 向 量 x 在 通过 我 们 刚刚 假设 的 关系 ftx)=wx+b 映射 后 与 实际 观测 值 y, 的 差距 
值 。 取 绝对 值 的 含义 就 是 指 这 个 差距 不 论 是 比 观 测 值 大 还 是 比 观测 值 小 ， 都 是 一 样 的 差距 。 
将 全 局 范围 内 这 个 差距 值 都 加 起 来 ， 得 到 所 谓 的 总 差距 值 ， 就 是 这 个 Loss 的 含义 。 那 么 
显而易见 ， 如 果 映 射 关 系 中 w 和 4b 给 的 理想 的 话 ， 这 个 差距 值 应 该 是 0， 因 为 每 个 x 经 过 
映射 都 “ 严 丝 合 颖 ”地 和 观测 值 一 致 了 一 一 这 种 状况 太 理 想 了 ， 在 实际 应 用 中 是 见 不 到 的 。 
Ait, Loss 越 小 就 说 明 这 个 映射 关系 描述 越 精确 ， 这 个 还 是 很 直观 的 。 那 么 想 办 法 把 Loss 
描述 成 : 
Loss=f(w, b) 

再 使 用 相应 的 方法 找 出 保证 Loss 尽 可 能 小 的 w 和 4 的 取 值 ， 就 算是 大 功 告 成 了 。 我 们 后 面 
会 讲 计算 机 怎么 来 求 这 一 类 的 解 一 一 放心 ,有 办 法 的 ， 即 便 不 用 联 立 解 方 程 。 一 旦 得 到 一 
个 误差 足够 小 的 w 和 b， 并 能 够 在 验证 用 的 数据 集 上 有 满足 当前 需求 的 精度 表现 后 就 可 以 
了 。 例 如 ， 预 测 病 患 的 血糖 误差 是 取 误 差 平均 小 于 等 于 0.3 为 容忍 上 线 ， 训 练 后 在 验证 集 上 
的 表现 是 误差 平均 为 0.2， 那 就 算是 合格 了 。 

请 注意 ， 在 传统 的 机 器 学 习 中 回归 、 分 类 这 些 算法 里 都 有 一 个 要 把 获取 到 的 数据 集 分 
成 训练 集 和 验证 集 的 过 程 。 用 训练 集 数据 来 做 训练 ， 归 纳 关 系 ; 用 验证 集 数据 来 做 验证 ， 
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避免 过 拟 合 现象 。 如 果 你 不 太 明 白 过 拟 合 是 什么 意思 也 没关系 ， 后 面 我 们 会 讲 的 ， 不 必 着 
急 。 数 据 集 的 划分 三 七 开 也 可 以 ， 二 八 开 也 没什么 不 行 ， 现 在 生产 环境 中 大 致 用 的 都 是 这 
样 一 种 比例 ， 反 正 训 练 集 一 定 用 数据 多 的 那 部 分 。 


数据 集 


训练 集 验证 集 


由 于 这 种 假设 中 输入 的 x 向量 与 标签 值 y 是 一 种 线性 关系 y=ftx)=wx+b， 所 以 才 叫 做 
线性 回归 。 最 常见 的 形式 是 y=ftx)=ax+5b 这 种 形式 ， 也 就 是 x 是 一 个 一 维 向 量 ，w 也 是 一 
个 一 维 向 量 的 情况 。 如 果 是 呈现 其 他 关系 (比如 指数 关系 、 对 数 关系 )， 那 么 这 种 时 候 你 用 
线性 回归 去 做 拟 合 会 发 现 它 的 损失 函数 非常 大 ， 在 验证 集 上 表现 出 来 的 误差 也 非常 大 ， 这 
是 一 种 欠 拟 合 现象 ， 我 们 后 面 同样 会 讲 ， 大 家 先 记 住 这 样 一 个 名 词 。 

非 线性 回归 类 中 ， 在 机 器 学 习 领 域 应 用 最 多 的 当 属 逻辑 回归 。 它 和 线性 回归 都 叫 回归 ， 
但 是 逻辑 回归 看 上 去 更 像 分 类 。 我 们 先 在 回归 这 一 节 提 一 下 这 种 回归 的 工作 方式 。 与 前 面 
我 们 说 的 线性 回归 不 同 ， 在 这 种 模型 中 观察 者 假设 的 前 提 是 y 只 有 两 种 值 : 一 种 是 1， 一 种 
是 0, 或 者 说 “是 ”或 “ 否 ” 的 这 种 判断 。 


1 
у= ЈО) = ey 


这 里 面 的 wx + b 和 前 面 线 性 回归 中 所 说 的 wx+b 是 一 个 概念 ， 都 是 指 一 个 w 和 矩阵 和 x 
做 了 内 积 再 和 偏 置 5b 做 了 加 和 。 如 果 设 z=wx+b， 那 么 这 个 回归 的 分 类 模型 表达 式 就 可 以 
改写 为 : 


y= n 





l+e* 


函数 图 像 为 ; 
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横 轴 是 >， 纵 轴 是 >， 一 个 多 维 的 * 经 过 这 样 两 次 映射 ， 最 后 投射 在 ?上 是 一 个 取 值 只 
有 1 和 0 二 项 分 布 。 也 就 是 我 们 前 面 说 的 产生 了 一 个 “是 ”或 “和 否 ” 的 分 类 。 

训练 的 过 程 跟 普 通 线性 回归 也 是 一 样 的 ， 只 不 过 损失 函数 的 形式 不 同 。 但 是 ， 它 的 损 
失 函 数 的 含义 仍旧 是 表示 这 种 拟 合 残 差 与 待定 系数 的 关系 ， 并 通过 相应 的 手段 进行 迭代 式 
的 优化 ， 最 后 通过 逐步 调整 待定 系数 减 小 残 差 。 人 逻辑 回归 的 表达 式 的 定义 本 源 是 来 自 于 伯 
努 利 分 布 > 的 ， 后面 我 们 也 会 有 相对 详细 的 说 明 ， 这 里 先 做 一 个 感性 认识 。 


L3 ”分 类 


分 类 是 机 器 学 习 中 使 用 的 最 多 的 一 大 类 算法 ， 我 们 通常 也 喜欢 把 分 类 算法 叫做 “分 

这 个 说 法 其 实 也 非常 形象 ， 在 我 们 看 来 ， 这 就 是 一 个 黑 盒子 ， 有 个 人 口 ， 有 个 出 口 。 
我 们 在 入口 丢 进去 一 个 “样本 ”， 在 出 口 期 望 得 到 一 个 分 类 的 “标签 ”。 比 如 ， 一 个 分 类 器 
可 以 进行 图 片 内 容 的 分 类 标签 ， 我 们 在 “入 口 ” 委 进去 一 张 老虎 的 照片 ， 在 “出 口 ”得 到 
老虎 这样 一 个 描述 标签 ; 而 当 我 们 在 “入 口 ” 丢 进 去 一 张 飞机 的 照片 ， 在 "HDI" 得 到 “ 飞 
机 ”这 样 一 个 描述 标签 ， 这 就 是 一 个 分 类 器 最 为 基本 的 分 类 工作 过 程 。 





(WER) 


一 个 分 类 器 模型 在 它 诞 生 (初始 化 ) 的 时 候 其 实 是 不 具备 这 种 功能 的 ， 只 有 通过 给 予 它 
大 量 的 图 片 以 及 图 片 所 对 应 的 标签 分 类 ， 让 它 自己 进行 充分 地 总 结 和 归纳 ， 才 能 具备 这 样 
一 种 能 力 。 

在 刚刚 看 到 的 逻辑 回归 这 种 方式 中 ,我 们 已 然 看 到 了 一 些 端倪 。 逻 辑 回归 和 普通 的 线 
性 回归 不 同 ， 它 的 拟 合 是 一 种 非 线性 的 方式 。 而 最 终 输 出 的 “标签 值 ”虽然 是 一 种 实数 变 
量 ， 而 最 终 分 类 的 结果 却 期 望 是 一 种 确定 的 值 “ 是 ”( 1 ) 或 “不 是 ”( 0 )。 其 他 各 种 分 类 器 


Ө HBHH, Р (n)-p' (1-p)'™, 
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的 输出 通常 也 是 离散 的 变量 ， 体 现 出 来 也 多 是 非 线性 的 分 类 特点 。 

我 们 在 编写 代码 教会 分 类 器 怎么 做 学 习 的 时 候 ， 其 实 是 在 教 它 如 何 建立 一 种 输入 到 输 
出 的 映射 逻辑 ， 以 及 让 它 自己 调整 这 种 逻辑 关系 ,使 得 逻辑 更 为 合理 。 而 合理 与 否 的 判断 
也 非常 明确 ， 那 就 是 召回 率 和 精确 率 两 个 指标 一 一 召回 率 指 的 是 检索 出 的 相关 样本 和 样本 
E ( 待 测 对 象 库 ) 中 所 有 的 相关 样本 的 比率 ， 衡 量 的 是 分 类 器 的 查 全 率 。 精 确 率 是 检索 出 的 
相关 样本 数 与 检索 出 的 样本 总 数 的 比率 ,衡量 的 是 分 类 器 的 查 准 率 。 

具体 来 说 ， 璧 如 有 一 个 1000 个 样本 的 训练 集 ， 是 1000 张 照片 ， 里 面 有 200 张 是 猫 ， 
200 张 是 狗 ，600 张 是 兔子 ,一 共 分 成 三 类 。 我 们 将 每 个 照片 向 量化 后 ， 加 上 标签 : 

Q^A" — “0”; 

п “Ay” —— “1”; 

о “ar” — "2", 

这 相当 于 一 个 x 和? 的 对 应 关系 ， 把 它们 输入 到 训练 集 去 训练 (但 是 这 个 地 方 的 标签 
0、1、2 并 不 是 实数 定义 ， 而 是 离散 化 的 标签 定义 ， 通 常 习惯 用 one-hot 独 热 编 码 的 方式 来 
表示 )。 经 过 多 轮训 练 之 后 ， 分 类 器 将 逻辑 关系 调整 到 了 一 个 相对 稳定 的 程度 ， 然 后 用 这 个 
分 类 器 再 对 这 200 张 猫 ，200 张 狗 ，600 张 兔子 图 片 进行 分 类 的 时 候 ， 发 现 : 

200 张 猫 的 图 片 中 ， 有 180 张 可 以 正确 识别 为 猫 ， 而 有 20 张 误 判 为 狗 。 

200 张 狗 的 图 片 可 以 全 部 正确 判断 为 狗 。 

600 张 兔子 的 图 片 中 ， 有 550 张 可 以 正确 识别 为 兔子 ， 还 有 30 张 被 误 判 为 猫 ，20 张 误 
判 为 狗 。 

你 可 不 要 觉得 奇怪 ， 在 所 有 的 机 器 学 习 或 者 深度 学 习 训 练 的 工程 中 ， 误 判 率 几 乎 是 没 
有 办 法 消灭 的 ， 只 能 用 尽 可 能 科学 的 手段 将 误 判 率 降 低 。 不 要 太 难 为 机 器 ， 其 实 人 都 没 办 
法 保证 所 有 的 信息 100% 正确 判断 ， 尤 其 是 在 图 片 大 小 、 图 片 清晰 程度 、 光 线 明 暗 悬 殊 的 
情况 下 ， 不 是 吗 ? 那 就 更 别 说 机 器 了 ， 它 更 做 不 到 。 

我 们 还 是 来 解释 召回 率 和 精确 率 的 问题 。 就 刚才 这 个 例子 来 说 ， 一 共 1000 张 图 片 中 ， 
200 张 是 猫 ， 但 是 只 能 正确 识别 出 180 张 ， 所 以 猫 的 召回 率 是 180 :+ 200=90%，600 张 兔子 
中 正确 识别 550 张 ， 所 以 兔子 的 召回 率 是 550 + 600 = 91.7%。 而 在 1000 中 图 片 中 ， 当 我 
检索 狗 的 时 候 会 检索 出 240 张 狗 的 图 片 ， 其 中 有 200 张 确实 是 狗 ， 有 20 张 是 被 误 判 的 猫 ， 
还 有 20 张 是 被 误 判 的 兔子 ， 所 以 240 张 狗 的 图 片 中 正确 的 仅 有 200 张 而 已 ， 那 么 狗 的 精确 
率 为 200 + 240 = 83.3%。 人 怎么 样 ， 这 两 个 概念 不 难 理解 吧 。 

分 类 的 训练 过 程 和 回归 的 训练 过 程 一 样 ， 都 是 极为 套路 化 的 程序 。 

第 一 ， 输 入 样本 和 分 类 标签 。 

第 二 ， 建 立 映射 假说 的 某 个 y=ftx) 的 模型 。 

第 三 ,求解 出 全 局 的 损失 函数 Loss 和 待定 系数 w 的 映射 关系 ，Loss=g(w)。 

第 四 ， 通 过 迭代 优化 逐步 降低 Loss， 最 终 找到 一 个 w 能 使 召回 率 和 精确 率 满足 当前 场 
景 需要 。 注 意 ， 这 里 尤其 指 在 验证 数据 集 上 的 表现 。 
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大 家 请 注意 这 4 个 步骤 ,我 们 从 前 面 最 简单 的 机 器 学 习 的 例子 中 已 经 总 结 出 来 一 个 最 
为 有 概括 性 的 科学 性 流程 。 这 种 流程 广泛 使 用 ， 并 且 在 其 他 机 器 学 习 的 场景 中 也 是 可 以 顺 
利落 地 的 。 

分 类 器 的 训练 和 工作 过 程 就 是 这 个 样子 了 ， 听 起 来 分 类 器 的 工作 过 程 非常 简单 ， 但 是 
要 知道 人 的 智能 行为 其 实 就 是 一 种 非常 精妙 或 者 称 为 完美 的 分 类 器 。 他 能 够 处 理 极为 复杂 、 
极为 抽象 的 输入 内 容 一 一 不 管 是 文字 、 声 音 、 图 像 ， 甚 至 是 冷 、 热 、 刺 痛感 、 冶 痒 感 这 种 
难以 名 状 的 刺激 ， 并 且 能 够 在 相当 短 的 时 间 内 进行 合理 的 输出 一 一 例如 对 答 、 附 和 、 评 论 ， 
抑或 是 尖 叫 、 大 笑 等 各 种 喜 怒 哀乐 的 反应 与 表现 。 从 定义 的 角度 上 来 说 ， 人 其 实 就 是 一 种 
极为 复杂 的 且 极 为 智能 的 分 类 器 。 而 我 们 在 工业 上 使 用 的 分 类 器 则 通常 是 非常 片面 的 ， 只 
研究 一 种 或 几 个 事物 的 “专业 性 ”的 分 类 器 ， 这 和 我 们 人 类 的 分 类 能 力 区 别 就 太 大 了 。 





14 综合 应 用 


到 现在 为 止 ， 我 们 看 到 的 绝 大 多 数 的 机 器 学 习 的 应 用 环境 都 非常 单纯 一 一 向 量 清洗 到 
位 ， 边 界 划 定 清晰 。 例 如 ， 垃 圾 邮件 的 分 拣 ， 能 够 通过 邮件 内 容 的 输入 来 判断 邮件 是 否 为 
垃圾 邮件 ; 新 闻 的 自动 分 类 ， 能 够 通过 新 闻 内 容 的 分 类 来 判断 新 闻 的 类 别 或 描述 内 容 的 属 
性 ; 摄像 头 对 车 牌号 的 OCR 电子 识别 手 、 写 识别 ， 这 些 应 用 可 以 通过 输入 一 个 图 像 来 得 到 
其 中 蕴含 的 文字 信息 向 量 ， 诸 如 此 类 ， 这 些 都 是 早 些 年 应 用 比较 成 熟 的 领域 ， 在 这 种 应 用 
场景 中 机 器 通过 学 习 能 够 取代 一 些 纯粹 的 体力 劳动 。 











在 近 几 年 ， 随 着 计算 机 能 力 的 提升 ， 尤 其 是 GPU 并 行 计算 的 普及 化 ， 使 得 很 多 原来 高 


密度 计算 场景 的 门槛 变 得 越 来 越 低 ， 人 们 在 商用 领域 已 经 开始 寻找 用 深度 学 习 的 网 络 来 做 
一 些 原来 不 可 想象 的 事情 。 
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例如 这 种 使 用 卷 积 神经 网 络 对 照片 进行 风格 处 理 ， 拿 一 张 普通 照片 作为 输入 ， 再 拿 一 
张 有 着 较 强 艺术 风格 的 绘画 作品 作为 训练 样本 ， 然 后 通过 卷 积 网 络 进行 处 理 ， 最 后 由 计算 
机 “创作 ”出 一 幅 内 容 基 于 照片 但 是 风格 基于 绘画 作品 的 新 作出 来 。 而 这 种 事情 在 几 年 前 
是 难以 想象 的 ， 因 为 这 看 上 去 太 “ 智 能 ”了 ， 太 有 “创造 力 ” 了 。 

还 有 类 似 这 种 ， 我 们 输入 一 张 照片 ， 然 后 让 计算 机 根据 这 张 照片 的 风格 和 内 容 ， 和 凭空 
创造 一 张 很 像 但 不 一 样 的 照片 出 来 。 注 意 哦 ， 这 个 跟 Photoshop 的 功能 可 是 完全 不 同 的 ， 它 
是 全 自动 的 。 在 这 些 图 中 ， 右 侧 的 图 都 是 源 图 ， 左 侧 的 图 都 是 计算 机 生成 的 图 ， 有 水 波纹 、 
云 打 、 花 从 ， 还 有 随意 的 艺术 涂鸦 。 怎 么 样 ， 有 不 少 真 的 是 可 以 以 假 乱 真 T 吧 。 这 都 是 使 
用 深度 神经 网 络 处 理 的 结果 。 
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那么 除 此 之 外 ， 像 语音 识别 以 及 视频 中 存在 物体 的 检 出 ， 这 些 内 容 也 是 属于 近 几 年 研究 
比较 热门 并 逐渐 趋 于 成 熟 的 应 用 领域 。 实 际 上 ， 在 实现 层面 有 很 多 种 实现 方式 可 以 完成 像 这 
样 的 应 用 。 而 在 学 术 领 域 ， 也 有 一 类 新 兴 的 基于 深度 学 习 神经 网 络 的 研究 领域 ， 叫 做 “对 抗 
学 习 ”， 它 可 以 实现 类 似 的 方式 。 在 深度 学 习 领 域 会 使 用 生成 对 抗 网 络 ( Generative Adversarial 
Network)， 这 种 网 络 的 特点 就 是 可 以 进行 复杂 内 容 的 生成 ， 而 非 生成 一 个 标签 这 么 简单 。 

此 外 ， 谷歌、 百度 也 在 近年 启动 了 无 人 驾驶 汽车 的 商业 研究 ， 这 种 自动 驾驶 也 同样 是 
一 种 典型 的 机 器 学 习 应 用 场景 。 只 不 过 它 的 输入 信息 不 再 那么 单纯 ， 它 有 一 个 激光 雷达 ， 
可 以 扫描 半径 60 米内 的 环境 ， 并 把 雷达 回 波 传输 给 主 控 电 脑 ! 除 此 之 外 还 有 前 置 摄像 头 用 
来 识别 正 前 方 视野 内 的 交通 信号 灯 、 车 辆 、 人 物 等 对 象 ; 还 有 前 后 雷达 ， 前 置 3 个 , 1 
个 ， 用 来 判断 与 前 后 物体 的 距离 ， 主 要 是 为 了 判断 车 距 使 用 。 当 然 还 少不了 GPS 和 电子 地 
图 信息 的 配合 。 





4 台 标 准 车 载 雷 达 
的 程序 ， 而 是 定义 多 个 复杂 的 深度 神经 
网 络 ， 然 后 呢 ? 就 是 让 驾驶 员 开 着 汽车 上 街 去 各 种 转 。 把 输入 的 各 种 大 量 的 激光 雷达 信和 号、 
摄像 头 信号 、 前 后 雷达 信号 灯 这 些 输入 信息 和 驾驶 员 实 际 作 用 在 汽车 上 的 大 量 的 油门 、 箱 
车 、 方 向 控制 这 些 操作 做 关联 ， 反 复 进 行 训练 ， 让 电脑 学 会 在 不 同 的 情况 下 使 用 不 同 的 操 
作 手 法 来 操作 汽车 。 这 样 一 个 训练 过 程 在 学 术 上 属于 强化 学 习 (reinforcement learning) 以 
及 其 周边 领域 的 范畴 ， 在 人 工 智 能 方面 ， 这 种 学 习 方法 是 业界 普遍 认可 的 。 只 不 过 各 方 对 
自动 驾驶 这 件 事情 是 褒贬 不 一 ， 因 为 毕竟 它 在 商用 环境 中 出 现 过 事故 。 

据 报 道 ，2016 年 6 月 30 日 ,美国 特 斯 拉 汽 车 公司 证 实 ， 一 辆 该 公司 生产 的 S 型 电动 轿车 
在 自动 驾驶 模式 下 发 生 撞车 事故 ， 导 致 司机 身亡 。 美 国 负责 监管 公路 交通 安全 的 机 构 正在 对 
事故 车 辆 的 自动 驾驶 系统 展开 调查 。 这 是 美国 首 例 涉 及 汽车 自动 驾驶 功能 的 交通 死亡 事故 。 

事故 于 2016 年 5 月 7 日 发 生 在 美国 佛罗里达 州 ， 导 致 涉 事 5 型 电动 轿车 车 主 、 一 名 40 
岁 美 国 男子 身亡 。 特 斯 拉 在 官方 博客 中 说 ， 公 司 在 事 发 后 立即 向 美国 国家 高 速 公路 交通 安 
全 管理 局 作 了 报告 。 

美国 国家 高 速 公 路 交通 安全 管理 局 在 一 份 声明 中 说 ， 这 起 事故 表明 “需要 对 事故 发 生 
时 启用 的 辅助 (自动 ) 驾驶 功能 的 设计 和 性 能 进行 检查 ”。 目 前 该 机 构 已 对 这 起 事故 展开 初 
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步调 查 ， 如 发 现 涉 事 车 辆 存在 安全 隐患 将 下 令 召 回 。 

特 斯 拉 解 释 说 ， 涉 事 S 型 电动 轿车 当时 正 使 用 自动 驾驶 功能 行驶 在 有 分 割 线 的 高 速 公 
路 上 ， 与 前 方 一 辆 处 于 横 穿 公 路 位 置 的 拖 挂 货车 呈 垂 直 关 系 。 在 逆光 背景 下 ，S$S 型 电动 轿车 
的 自动 驾驶 系统 和 司机 都 没 注意 到 拖 挂 卡车 的 白色 侧面 ， 因 此 ,S 型 电动 轿车 没有 启用 制 动 。 
由 于 拖 挂 货车 车 身高 大 ， 且 处 于 横 穿 公路 的 位 置 ， 使 得 “造成 这 场 车 祸 的 情形 组 合 极为 罕 
А”, И S 型 电动 轿车 挡 风 玻璃 撞击 拖 挂 货车 底部 ， 整 车 从 拖 挂 货车 下 穿 过 。 

其 实 不 能 不 说 ， 这 也 暴露 出 人 工 智 能 或 深度 学 习 中 的 一 些 软肋 ， 那 就 是 电脑 “天 生 弱 
智 ” 的 特性 ， 它 是 不 具备 足够 好 的 应 变 能 力 的 。 美 国 著名 智库 兰 德 公司 2016 年 4 月 在 一 份 
研究 报告 中 指出 ， 自 动 驾驶 汽车 测试 的 总 里 程 还 很 少 ， 缺 乏 足 够 多 的 数据 来 对 比 这 类 汽车 与 
传统 汽车 的 安全 性 和 可 靠 性 。 迄 今 为 止 ， 测试 时 间 最 长 的 是 谷歌 自动 驾驶 汽车 ， 从 2009 ~ 
2015 年 ，55 辆 谷歌 自动 驾驶 汽车 的 道路 测试 总 里 程 仅 约 130 万 英里 ( 约 合 209 JT, 其 
间 共 发 生 了 11 起 小 事故 。 

有 研究 人 员 认 为 ， 自 动 驾驶 汽车 需要 测试 数 亿 至 数 千 亿 公里 ， 才 能 验证 它们 在 减少 交 
通 事 故 方面 的 可 靠 性 ， 而 现 有 的 自动 驾驶 汽车 至 少 要 几 十 年 甚至 几 百 年 才能 达到 这 么 多 测 
试 里 程 。 如 果 要 在 自动 驾驶 汽车 上 市 前 证 明 其 安全 性 ， 这 不 可 能 做 到 。9 


1.5 ”小结 


一 言 以 英之 ， 机 器 学 习 就 是 人 类 定义 一 定 的 计算 机 算法 ， 让 计算 机 根据 输入 的 样本 和 
一 些 人 类 的 干预 来 总 结 并 归纳 其 特征 与 特点 ， 并 用 这 些 特征 和 特点 与 一 定 的 学 习 目 标 形成 
映射 关系 ， 进 而 自动 化 地 做 出 相应 反应 的 过 程 。 这 个 反应 可 能 是 做 出 相应 的 标记 或 判断 ， 
也 可 能 是 输出 一 段 内 容 一 一 图 片 、 程 序 代 码 、 文 本 、 声 音 ， 而 机 器 自己 学 到 的 内 容 我 们 可 
以 描述 为 一 个 函数 、 一 段 程序 、 一 组 策略 等 相对 复杂 的 关系 描述 。 

在 我 看 来 ， 机 器 学 习 是 大 数据 的 一 个 子 范畴 。 因 为 凡是 基于 对 客观 事物 的 量化 认 知 的 
科学 都 是 数据 科学 的 范畴 ， 也 就 是 广义 的 大 数据 的 范畴 。 机 器 学 习作 为 其 中 一 个 用 来 自动 
归纳 和 总 结 数据 关系 的 总 的 方法 论 当 然 算 其 中 的 一 个 子 范畴 ， 这 点 没有 什么 疑问 。 

而 就 机 器 学 习作 为 研究 对 象 来 说 ， 也 有 传统 的 机 器 学 习 和 深度 学 习 两 个 粗略 的 分 类 方 
式 ， 我 们 在 这 里 还 是 要 提 一 下 。 它 们 有 个 比较 大 的 区 别 ， 那 就 是 传统 的 机 器 学 习 通 常 是 需 
要 人 提前 先 来 做 特征 提取 ， 把 提取 过 的 特征 向 量化 后 再 丢 给 模型 去 训练 ， 这 里 人 要 做 相当 
的 前 置 工作 。 而 深度 学 习 通 常 可 以 采用 End-to-End 的 学 习 方 式 ， 输 入 的 内 容 只 需要 做 很 少 
的 一 些 归 一 化 (normalization)、 白 化 (whitening) 等 处 理 就 可 以 丢 给 模型 去 训练 ， 通 常 不 需 
要 人 来 做 特征 提取 的 工作 。 而 这 个 特征 提取 的 动作 可 以 由 整个 深度 学 习 的 网 络 模型 帮 有 我们 
自动 完成 ， 这 就 给 很 多 传统 机 器 学 习 中 很 难处 理 的 问题 带 来 了 新 的 转机 。 


© 信息 来 自 与 凤凰 财经 http://finance.ifeng.com/a/20160702/14552688_0.shtml， 有 删改 。 
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21 神经 网 络 是 什么 


要 说 深度 学 习 (deep learning)， 就 必须 先 说 神经 网 络 ， 或 者 称 人 工 神经 网 络 〈artificial 
neural network，ANN)。 神 经 网 络 是 一 种 人 类 由 于 受到 生物 神经 细胞 结构 启发 而 研究 出 的 
一 种 算法 体系 。 
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人 的 神经 细胞 就 像 图 上 这 样 ， 枝 枝 权 权 很 多 ， 远 远 看 上 去 一 边 比较 粗大 一 边 比 较 纤细 。 
最 上 端 粗大 的 这 一 边 就 是 细胞 体 的 所 在 ， 细 胞 体 上 有 一 些小 枝 权 叫做 树 突 ， 细 长 的 这 一 条 
像 尾 巴 一 样 的 东西 叫做 轴 突 。 不 同 细胞 之 间 通 过 树 突 和 轴 突 相互 传递 信息 ， 它 们 的 接触 点 
叫 突 触 ， 准 确 说 是 由 一 个 细胞 的 轴 突 通过 突 触 将 信号 传递 给 另 一 个 细胞 的 树 突 。 

神经 细胞 在 信号 的 传递 中 用 的 是 化 学 信号 进行 传递 ， 化 学 信号 就 是 靠 一 些 有 机 化 学 分 
子 的 传输 来 传递 信息 ,但 是 有 机 化 学 分 子 太 复杂 了 ， 到 现在 为 止 人 类 对 于 这 些 化 学 分 子 所 
具体 承载 的 信息 仍旧 是 一 知 半 解 ， 还 没有 形成 完整 的 体系 性 解释 。 而 人 类 从 这 种 通过 神经 
细胞 之 间 的 刺激 来 传递 信息 的 方式 中 获得 了 启迪 一 一 是 否 我 们 也 可 以 设计 这 样 一 种 网 络 状 
连接 的 处 理 单元 ， 让 它们 彼此 之 间 通 过 某 种 方式 互相 刺激 、 协 同 完成 信息 处 理 呢 9 前 人 们 
还 真有 这 种 脑 洞 大 又 圆 的 。 

比较 早 的 我 们 可 以 追溯 到 1957 年 RosenblattS 提 出 的 感知 器 模型 ( perceptron)， 这 种 模 
型 和 现在 最 新 应 用 框架 中 的 神经 网 络 单元 形式 上 还 确实 是 非常 接近 的 。 我 们 要 想 了 解 神经 
网 络 ， 就 应 该 先 看 看 它 最 基本 的 组 成 单元 一 一 神经 元 。 


2.1.1 神经 元 


神经 网 络 让 人 觉得 难以 亲近 的 地 方 其 实 就 是 它 的 实现 原理 ， 至 少 远 远 没有 原来 我 们 接触 
到 的 各 种 基于 统计 的 算法 那么 直观 。 我 们 原来 在 数据 结构 研究 领域 和 基础 算法 研究 领域 中 所 
接触 到 的 各 种 算法 基本 都 是 一 些 加 减 乘除 、 比 大 小 、 循 环 、 分 支 、 读 写 数据 ， 用 这 些 基 本 的 
组 合 就 能 够 完成 一 个 相对 确定 的 目标 任务 了 ， 即 便 这 个 目标 是 一 个 比较 复杂 的 算法 内 容 。 而 
神经 网 络 和 这 种 方式 感觉 上 还 真是 有 那么 点 不 一 样 ， 我 们 先 来 看 看 神经 元 是 个 什么 东西 。 


w ЄЎ 
х 
SS 


这 就 是 一 个 最 简单 的 神经 元 了 ， 有 一 个 输入 ， 一 个 输出 ， 所 以 它 所 表达 的 含义 跟 一 个 
普通 的 函数 没有 什么 区 别 。 不 过 请 注意 ， 现 在 我 们 使 用 的 神经 元 通常 有 两 个 部 分 组 成 ， 一 
个 是 “线性 模型 "， 另 一 个 是 “激励 函数 ”"。 如 果 你 对 机 器 学 习 不 大 了 解 的 话 ， 我 们 就 先 说 
说 这 个 “线性 模型 ”。 

假设 这 个 神经 元 的 函数 表达 为 : 

Дх)=х+1 
那么 这 就 是 一 个 普通 的 一 次 函数 。 也 就 是 说 ， 当 输入 为 x=1 时 ， 输 出 端的 ftx)=2 ; 当 输 入 
为 x=100 时 ,输出 端的 ftx)=101。 怎 么 样 ， 是 不 是 很 简单 。 没 错 ， 你 刚刚 看 到 的 就 是 最 为 
简单 的 神经 元 工作 的 原理 ， 和 普通 的 函数 真 的 看 不 出 什么 太 大 的 区 别 。 也 许 你 要 说 ， 这 么 


© Frank Rosenblatt，(-1928 年 7 月 ~1971 4E 7 А), 美国 著名 心理 学 家 ， 人 工 智能 学 家 。 
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简单 的 东西 干 嘛 非 要 往 神 经 元 上 去 靠 , 这 不 是 把 问题 复杂 化 了 么 ?好 吧 ， 这 个 问题 我 也 先 


不 做 解释 ， 我 们 再 看 下 一 个 例子 。 


x 既然 可 以 是 一 个 一 维 的 向 量 ， 那 其 实 也 可 以 是 5 维 的 (就 如 上 图 这 样 )， 当 然 也 可 以 是 
100 维 或 更 多 ， 我 们 就 说 它 的 输入 为 一 个 n 维 向 量 吧 。 按 照 前 面 一 维 向 量 的 处 理 方式 ， 我 们 
可 以 建立 一 个 有 nn 个 输入 项 的 神经 元 .ftx)， 把 它 展 开 写 就 是 fons xs x,)， 咱 们 在 这 特别 声 
明 一 下 这 个 x 是 一 个 n 维 的 向 量 ， 然 后 带 有 一 个 输出 函数 值 output， 这 个 output 的 输出 值 
就 是 函数 的 输出 值 х), ВЮ output=ftx)， 而 这 个 函数 的 处 理 我 们 写作 : 

hx)=wx+b 

这 种 方式 也 是 神经 元 最 核心 部 分 对 x 所 做 的 线性 处 理 ， 其 中 x 是 一 个 1 x 的 矩阵 ， 而 
w 是 一 个 nx1 的 权重 矩阵 ， 是 偏 置 项 。 这 种 写法 看 上 去 很 简洁 ， 但 是 容易 让 初学 者 感到 
糊涂 ， 至 少 没 看 明白 w 和 x 还 有 5 一 起 做 了 哈 ， 那么 我 们 把 这 个 计算 过 程 拆 解 一 下 。 

(Ri, nd 5, 那么 x 是 一 个 1x5 的 输入 矩阵 ， 例 如 ， 


这 个 就 是 一 个 完整 的 特征 向 量 x 了 ， 它 表示 了 对 一 个 样本 的 描述 ， 这 个 描述 是 个 多 维 
度 的 描述 ， 具 体 每 个 维度 指 代 的 含义 在 不 同 的 场景 下 是 对 应 有 不 同 解释 的 。 比 如 这 个 矩阵 
有 可 能 表示 的 是 一 个 样本 客户 的 个 人 财务 状况 ， 分 别 表示 : 


年 收入 
用 户 患 诚 度 指数 
负债 


下 一 个 用 户 可 能 又 是 别 的 值 ， 这 样 一 个 一 个 样本 组 合 起 来 形成 了 一 个 很 大 的 样本 空 
间 一 一 注意 ， 这 些 样 本 最 终 都 会 用 来 训练 模型 ， 我 们 先 记 住 它们 的 作用 ,后面 再 来 逐步 讲 
解 究竟 是 怎么 个 用 法 。 
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wit—P nx 1 的 矩阵 ， 它 表示 的 是 一 个 权重 的 概念 ， 例 如 : 
[0.3 0.8 1.5 1.2 0.5] 
它们 分 别 表示 : 
[EMRE 年 龄 权重 年 收入 权重 用 户 忠 诚 度 指数 权重 负债 权重 ] 

还 有 一 个 是 b, b 是 一 个 实数 值 ， 或 者 你 把 它 视 作 一 个 1 x 1 的 矩阵 也 无 妨 。 当 我 们 在 
此 回顾 刚刚 说 的 这 个 函数 ftx)=wx+b 的 时 候 ， 我 们 试 着 来 解读 一 下 这 个 函数 的 含义 。 

wx 相 乘 是 两 个 矩阵 进行 内 积 的 操作 ， 乘 出 来 是 一 个 实数 ， 最 后 再 加 上 5。 以 我 们 刚刚 
的 例子 来 看 ,我 们 先 假设 在 这 个 例子 中 心 是 0， 会 得 到 这 样 一 个 结果 ， 即 ftx)=wx+b 就 变 
成 了 : 

Дх) =1х0.3+50х0.8+27х1.5+19х1.2+(-55) X0.5+0=44.7 

RARAGA RT ВЕ У Л FF A cH FI АК РТ РЕК, IE I ЖШ 

有 一 个 样本 (客户 信息 )， 辟 如 : 


Дх) =0х0.3+25 х0.8+10х1.5+8х1.2+0 X0.5+0=51.6 

在 这 样 的 一 种 评价 体系 下 ， 第 二 位 客户 要 比 第 一 位 客户 获得 更 高 的 质量 评分 。 

那么 在 这 个 金融 机 构 的 日 常 工作 中 就 可 以 利用 这 个 函数 对 客户 的 情况 进行 评分 ， 并 进 
行 相应 的 信用 额度 给 予 ， 以 及 产品 推荐 等 进一步 的 工作 了 。 这 就 是 一 个 神经 元 工作 时 最 直 
观 的 感觉 ，w 和 x 求 内 积 ， 加 4b 产生 这 样 一 个 线性 的 结果 输出 。 因 为 一 个 神经 元 也 是 一 个 让 
辑 简 单 的 模型 ， 所 以 它 本 身 也 能 够 单独 胜任 一 些 逻 辑 简 单 的 场景 。 单 个 的 神经 元 工作 起 来 
基本 就 是 这 个 样子 ， 只 不 过 后 面 还 会 加 一 个 激励 函数 而 已 ， 至 于 激励 函数 是 什么 ， 后 面 会 
讲 。 怎 么 样 ， 到 目前 为 止 还 算 直 观 吗 ? 

好 ， 接 着 刚才 的 问题 来 说 。 问 题 是 ， 这 个 权重 是 谁 规定 的 ? 

对 机 器 学 习 有 概念 的 朋友 可 能 不 会 陌生 ， 如 果真 的 在 某 个 金融 机 构 里 有 这 种 公式 的 话 ， 
十 有 八 九 是 通过 “逆向 ”的 方法 得 到 的 。 什 么 意思 呢 ? 就 是 说 ， 我 们 先 假设 这 里 有 一 些 未 
知 的 权重 w( 也 就 是 我 们 刚刚 说 的 那个 nx 1 的 矩阵 )， 然 后 我 们 同时 还 拥有 大 量 的 客户 样本 ， 
注意 这 个 地 方 的 样本 可 不 是 只 有 : 
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这 种 维度 标识 ， 除 此 之 外 还 有 具体 被 赋予 的 分 数 一 一 这 个 分 数 一 定 是 由 其 他 方式 获得 的 ， 
比如 通过 多 年 的 业务 经 验 总 结 ， 由 业务 专家 给 予 的 每 个 样本 所 拥有 的 一 个 分 数 标签 。 这 样 
一 来 场景 是 什么 样 的 呢 ? 

我 们 手 里 的 数据 : 

样本 1: 《性别 1， 年龄 1， 年 收入 1， 用 户 上 忠诚 度 指 数 1， 负 债 10, 分 数 1 

样本 2: (8012, 年 龄 2， 年 收入 2， 用 户 上 忠诚 度 指数 2， 负 债 2 )， 分 数 2 

kn: (EAn, Ein, 年 收入 n， 用 户 忠 诚 度 指 数 n， 人 负债 n)， Яп 

当 有 了 n 个 这 种 样本 以 后 ， 我 们 通过 类 似 多 元 线性 回归 的 方式 把 这 些 值 代入 我 们 假定 
的 ftx) 函数 ， 就 会 得 到 : 

分 数 1= 性 别 1X 性 别 权重 + 年 龄 1X 年 龄 权重 + 年 收入 1x 年 收入 权重 + 用 户 患 诚 
度 指 数 1x 用 户 忠诚 度 权 重 + 负债 1 X 负债 权重 + 偏 置 

分 数 2 = 性 别 2x 性 别 权重 + 年 龄 2X 年 龄 权重 + 年 收入 2X 年 收入 权重 + 用 户 患 诚 
度 指 数 2X 用 户 忠诚 度 权 重 + 负债 2X 负债 权重 + 偏 置 

AK n= Ж nx 性 别 权重 + 年 龄 mx 年 龄 权重 + 年 收入 mx 年 收入 权重 + 用 户 患 诚 
Ж пх 用 户 忠诚 度 权 重 + A nk 负债 权重 十 偏 置 

在 前 面 讲 解 回 归 的 部 分 ， 我 们 提 到 过 一 个 叫 Loss 的 函数 : 

Loss = Yi wx, +b—y, | 


来 描述 拟 合 与 真实 观测 的 差异 之 和 ， 我 们 称 之 为 残 差 。 在 这 个 例子 中 ， 如 果 要 想得到 比较 
合适 的 w 和 b， 那 就 还 是 要 想 办 法 让 这 个 函数 Loss(w, b) 尽 可 能 小 ， 然 后 取 满 足 这 个 状态 的 
w 和 4b。 这 个 过 程 是 没有 区 别 的 。 

回想 一 下 在 第 1 章 里 面 我 们 是 不 是 也 见 过 这 个 非常 熟悉 的 过 程 呢 ? 再 加 深 一 遍 印 象 吧 ， 
在 后 面 的 学 习 中 每 一 个 单独 的 模型 都 要 经 历 这 样 一 个 完整 的 过 程 。 


2.1.2 ”激励 函数 


激励 函数 (activation function) 一 一 也 有 翻译 成 激活 函数 的 ， 也 是 神经 元 中 重要 的 组 成 部 
分 。 激 励 函 数 在 一 个 神经 元 当中 跟随 在 ftx)=wx+b 函数 之 后 ， 用 来 加 入 一 些 非 线性 的 因素 。 

在 谷歌 网 站 的 搜索 结果 中 或 者 别 的 相关 网 站 资料 上 我 们 会 看 到 激励 函数 有 很 多 种 类 ， 
就 看 看 它们 画 出 来 的 曲线 吧 ， 见 下 图 ， 真 可 谓 五 花 八 门 。 然 而 在 目前 成 熟 的 深度 学 习 框 架 
中 ， 供 我 们 使 用 的 激励 函数 其 实 很 有 限 ， 主 要 也 都 是 手边 上 那些 比较 好 用 的 ， 那 我 们 就 看 
一 下 通常 激励 函数 都 有 哪些 吧 。 


Ө 引 自 维基 百科 ，https://en.wikipedia.org/wiki/Activation_function。 


ww ai bit. com ЦППППППП 









б, 
= 
i 

" 


at 
à 
x 
@ 











0 fo 2«0 0 fo «#0 
1 for 220 re-* for 2=0 o» 
1 





本 


„үт 









i 
f 






TN 





0 for z<0 
ra-( for 20 


SES 


f(a,2) = a for 2<0 













for z«0 
ras- (1 for Ex 


ale -1) for z«0 f(z)*a fo z«0 

h*a(z-u) fo <t moe 
CE for t «z«t, | (—00,00) 

& for #>t, 


= for i <2<t, 
eee SENEN fe) = тең) + Sat maato, -+ 的 fe) = 8e) cata + Ky (оо, оо) 










| 






Wik 





1. Sigmoid 函数 
Sigmoid 函数 基本 上 是 我 们 所 有 学 习 神 经 网 络 的 人 第 一 个 接触 到 的 激励 函数 了 。 它 的 定 
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义 是 这 样 的 : 
1 
I) = т беу 
或 者 也 可 以 写成 


z-wxtb, f(z)= 





l+e” 





这 里 的 横 轴 是 z， 纵 轴 是 ftz)。 在 这 个 曲线 中 我 们 可 以 看 到 ， 对 于 一 个 高 维 的 x 向 量 的 
WA, E wx 两 个 矩阵 做 完 内 积 之 后 ， 再 加 上 b， 这 样 的 一 个 线性 模型 的 结果 充当 自 变量 z 


НИЯТ /6)- —— 当中 去 。 这 就 使 得 输入 x 与 输出 的 fx) 关系 与 前 面 我 们 所 举例 的 


内 容 不 同 ， 前 面 我 们 只 讲 了 ftx) 以 线性 回归 的 方式 去 工作 的 过 程 ， 不 过 那 不 是 它 在 神经 网 
络 中 工作 的 状态 。 当 一 个 完整 的 神经 元 被 定义 的 时 候 ， 它 通常 是 带 有 “线性 模型 ”和 “ 激 
励 函 数 ” 两 个 部 分 首尾 相 接 而 成 的 。 所 以 最 后 一 个 神经 元 大 概 是 这 么 个 感觉 ， 前 半 部 分 接 
收 外 界 进来 的 x 向量 作为 刺激 ， 经 过 wx+z 的 线性 模型 后 又 经 过 一 个 激励 函数 ， 最 后 输出 。 
这 里 只 是 为 了 看 着 方便 ,x 只 画 了 6 条 线 ， 实 际 在 工作 中 很 多 全 连接 的 网 络 里 x 要 真 画 出 来 
是 要 画 几 万 条 线 不 止 的 。 





Sigmoid 函数 是 一 种 较 早出 现 的 激励 函数 ， 把 激励 值 最终 投 射 到 了 0 和 1 两 个 值 上 。 通 
过 这 种 方式 引入 了 非 线 性 因素 。 其 中 的 “1” 表 示 完 全 激活 的 状态 ,“0” 表 示 完 全 不 激活 的 
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状态 ， 其 他 各 种 输出 值 就 介 于 两 者 之 间 ， 表 示 其 激活 程度 不 同 。 

说 到 为 什么 要 引入 非 线性 因素 ， 这 个 可 能 是 个 比较 有 趣 的 话题 。 因 为 最 终 用 一 个 大 的 
函数 “网 络 ” 去 拟 合 一 个 对 应 的 关系 的 时 候 你 会 发 现 ， 如 果 仅 有 线性 函数 来 拟 合 的 话 ， 那 
么 拟 合 的 结果 一 定 仅仅 包含 各 种 各 样 的 线性 关系 。 一 旦 这 个 客观 的 、 我 们 要 求解 的 关系 中 
本 就 含有 非 线性 关系 的 话 ， 那 么 这 个 网 络 必定 严重 欠 拟 合 一 一 因为 从 一 开始 设计 出 来 的 网 
络 就 属于 “先天 残疾 ”， 一 开始 就 猜 错 了 人 家 本 身长 的 样子 ， 那 再 怎么 训练 都 不 会 有 好 结果 。 
线性 就 是 用 形 如 .ftx)=wx+b 的 表达 式 来 表示 的 输入 与 输出 的 关系 ， 而 其 他 的 都 应 该 算 作 非 
线性 关系 了 ， 后 面 我 们 会 看 到 具体 的 例子 。 


2. Tanh 函数 

Tanh 陈 数 也 算是 比较 常见 的 激励 函数 了 ， 在 后 面 学 习 循 环 神经 网 络 КММ (recurrent 
neural networks) 的 时 候 我 们 就 会 接触 到 了 。 

Tanh 函数 也 叫 双 曲 正切 函数 ， 表 达 式 如 下 : 


е-е" 
me 





tanh(x) = 





e +e 


函数 曲线 是 这 样 一 个 形式 : 


"(e^x-e^-x)(e^x*e^-x)" ВР 





大 家 可 以 看 到 ，Tanh 函数 跟 Sigmoid 函数 长 相 是 很 相近 的 ， 都 是 一 条 “S” 型 曲线 。 
只 不 过 Tanh 函数 是 把 输入 值 投射 到 -1 和 1 上去。 其 中 “ -1” 表 示 完 全 不 激活 ,“1” 表 示 
完全 激活 ， 中 间 其 他 值 也 是 不 同 的 激活 程度 的 描述 。 除 了 映射 区 间 不 同 以 外 ， 跟 Sigmoid 
似乎 区 别 不 是 很 大 。 从 x* ЖП у 的 关系 来 看 ，Sigmoid MAE |x| > 4 之 后 曲线 就 非常 平缓 极 
为 贴近 0 或 1，Tanh 函数 在 |x| > 2 之 后 会 让 曲线 非常 平缓 极为 贴近 -1 或 1， 这 多 多 少 少 
会 影响 一 些 训 练 过 程 中 待定 系数 的 收敛 问题 ， 其 他 的 影响 单纯 从 激励 函数 本 身 的 特性 来 说 
还 看 不 出 来 。 
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3. ReLU 函数 
ReLU 函数 是 目前 大 部 分 卷 积 神经 网 络 CNN (convolutional neural networks) 中 喜欢 使 
用 的 激励 函数 ， 它 的 全 名 是 rectified linear units. 


x -0.035340373 у. -0 035340373 





这 个 函数 的 形式 为 y max(x, 0)， 在 这 个 函数 的 原点 左 侧 部 分 斜率 为 0， 在 右 侧 则 是 一 
条 斜率 为 1 的 直线 。 从 样子 上 来 看 ， 这 显然 是 非 线性 的 函数 ,x 小 于 0 时 输出 一 律 为 0, x 
大 于 0 时 输出 就 是 输入 值 。 

这 个 函数 在 刚刚 我 们 看 过 的 几 个 函数 图 像 中 看 上 去 是 最 有 棱角 、 最 明朗 了 的 。“ 人 有 古 
怪 相 必 有 古怪 能 ”一 一 这 函数 还 真是 有 一 些 非常 优秀 的 特性 ， 所 以 才 会 让 大 家 在 很 多 网 络 
里 都 会 倾向 于 使 用 它 。 至 于 为 什么 我 们 后 面 也 会 详细 讲解 的 ， 先 让 它 跟 你 混 个 脸 熟 。 


4. Linear 函数 
Linear 激励 函数 在 实际 应 用 中 并 不 太 多 ， 原 因 刚 刚 已 经 做 过 简单 的 解释 了 。 那 就 是 如 
果 网 络 中 前 面 的 线性 层 引 入 的 是 线性 关系 ， 后 面 的 激励 层 还 是 线性 关系 ， 那 么 就 会 让 网 络 
没 办 法 很 好 地 拟 合 非 线性 特性 的 关系 ， 从 而 发 生 严重 的 和 欠 拟 合 现象 。 
KARAR: 
Дх)=х 
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由 于 这 类 激励 函数 的 局 限 性 问题 ， 目 前 主要 也 就 是 出 现在 一 些 参考 资料 当中 做 个 “ 标 
本 "， 商 用 环境 是 比较 罕见 的 ， 至 少 笔者 到 目前 使 用 这 种 激励 函数 的 项 目 也 还 非常 少 。 


2.1.3 ”神经 网 络 


一 旦 多 个 神经 元 首尾 连接 形成 一 个 类 似 网 络 的 结构 来 协同 工作 的 时 候 ， 那 就 可 以 被 称 
为 神经 网 络 了 。 一 般 也 没有 人 硬性 规定 网 络 必须 有 和 多少 层 ， 每 层 有 多 少 个 神经 元 节点 ， 完 
全 是 在 各 个 场景 的 Case 中 根据 经 验 和 一 些 相 关 理 论 进行 尝试 ， 最 后 得 到 一 个 适应 当前 场景 
的 网 络 设计 。 

大 家 请 注意 这 一 点 ， 在 学 习 神经 网 络 (深度 学 习 ) 的 整个 历程 中 你 会 不 断 发 现 这 样 或 
者 那样 的 不 同形 式 的 网 络 ， 每 种 网 络 或 出 自 某 个 具体 的 工程 项 目 ， 根 据 需 求 、 工 程 人 员 经 
验 、 实 验 效果 来 选 定 的 ， 或 者 出 自 某 些 尖端 的 实验 室 (例如 谷歌 、 微 软 以 及 国内 一 些 顶级 
企业 等 )， 并 辅 以 相关 的 论文 对 网 络 在 实验 中 的 效果 与 同期 其 他 网 络 的 解决 方案 做 对 比 。 但 
是 你 极 少 能 发 现在 这 些 网 络 的 诞生 过 程 中 有 完整 的 、 严 说 的 、 普 适 的 、 母 庸 置疑 的 推导 过 
程 一 一 也 难怪 有 不 少 从 事 深 度 学 习 多 年 的 资深 老兵 说 深度 学 习 越 学 越 像 老 中 医 。 我 觉得 这 
个 说 法 还 挺 形象 ， 年 轻 大 夫 没 经 验 不 敢 轻 易 开 方 子 ， 等 熬 成 了 老 中 医 的 时 候 才 发 现 里 面 门 
道 太 深 ， 深 到 了 研究 了 一 辈子 也 没 办 法 总 结 出 完整 的 、 可 以 精确 推导 的 公式 或 定理 ， 大 部 
分 情况 只 能 靠 自己 的 经 验 和 实验 结果 调整 药方 。 听 起 来 好 像 挺 无 奈 的 是 吧 ? 其 实 你 学 过 之 
后 就 知道 了 ， 用 好 了 是 真能 解决 问题 ， 因 为 还 是 有 一 些 沉淀 下 来 相对 比较 固定 的 设计 思路 、 
设计 技巧 和 体系 。 

闲 言 少 叙 ， 咱 们 来 看 神经 网 络 的 结构 吧 。 这 就 是 一 个 比较 简单 的 神经 网 络 结构 了 。 在 
一 个 神经 网 络 中 通常 会 分 这 样 几 层 : 输入 层 (input layer)、 隐 藏 层 (hidden layer， 也 叫 隐 含 
层 )、 输 出 层 (output layer). 





输入 层 在 整个 网 络 的 最 前 端 部 分 ， 直 接 接受 输入 的 向 量 ， 它 是 不 对 数据 做 任何 处 理 的 ， 
所 以 通常 这 一 层 是 不 计 人 层 数 的 。 
隐藏 层 可 以 有 一 层 或 多 层 ， 现 在 比较 深 的 网 络 据 我 所 知 有 超过 50 层 的 ， 甚 至 在 一 些 
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“特殊 ”的 网 络 一 一 例如 深度 残 差 网 络 中 有 超过 150 层 的 ! 这 已 经 非常 多 了 ， 在 本 书 所 涉及 
的 实验 中 是 没有 这 么 多 层 的 神经 网 络 出 现 的 。 

输出 层 是 最 后 一 层 ， 用 来 输出 整个 网 络 处 理 的 值 ， 这 个 值 可 能 是 一 个 分 类 向 量 值 ， 也 
可 能 是 一 个 类 似 线性 回归 那样 产生 的 连续 的 值 ， 也 可 能 是 别 的 复杂 类 型 的 值 或 者 向 量 ， 根 
据 不 同 的 需求 输出 层 的 构造 也 不 尽 相 同 ， 后 面 我 们 会 逐步 接触 到 。 

神经 元 就 是 像 图 上 所 画 的 这 种 首尾 相 接 的 方式 进行 数据 传递 的 ， 前 一 个 神经 元 接收 数 
据 ， 数据 经 过 处 理会 输出 给 后 面 一 层 的 相应 的 一 个 或 多 个 神经 元 。 对 于 一 个 x 向 量 中 的 任 
何 一 个 维度 分 量 ， 你 都 可 以 在 这 种 拓扑 描述 中 看 到 它 在 通过 一 层 一 层 的 处 理 时 通过 了 哪些 
神经 元 的 处 理 ， 并 且 在 输出 后 又 输入 了 哪些 神经 元 。 形 式 上 就 是 这 个 样子 ， 所 以 叫 法 很 形 
象 ， 神 经 网 络 一 一 由 神经 元 (神经 节点 ) 所 组 织 的 网 络 。 


2.20 ”深度 神经 网 络 


2016 年 3 月 ， 随 着 Google 的 AlphaGo ІД 4 : 1 的 甚 殊 比 分 战胜 韩国 的 李 世 石 九段 ， 围 
棋 一 一 这 一 人 类 一 直 认 为 可 以 在 长 时 间 内 轻松 碾 压 AI 的 竞技 领域 已 然 无 法 固守 ， 而 深度 学 
习 ( деер learning) 这 一 象征 着 未 来 人 工 智 能 领域 最 重要 、 最 核心 的 科技 也 越 来 越 成 为 人 们 
关注 的 焦点 。 

这 里 所 谓 的 深度 学 习 实际 指 的 是 基于 深度 神经 网 络 ( deep neural networks, DNN) 的 
学 习 ， 也 就 是 深度 人 工 神经 网 络 所 进行 的 学 习 过 程 ， 或 称 作 Deep Learning。 这 个 Deep 指 
的 是 神经 网 络 的 深度 ( 层 数 多 )。 当 然 ， 其 实业 界 没有 特别 具体 地 定义 ， 大 于 多 少 层 的 算 深 
度 网 络 ， 少 于 多 少 层 的 不 算 ， 没 有 这 样 一 个 说 法 。 所 以 在 这 里 我 也 就 不 强调 多 深 算 深 的 概 
念 了 ， 我 们 就 权 且 管 超过 2 层 的 一 一 也 就 是 1 个 隐藏 层 和 1 个 输出 层 以 上 深度 的 都 叫 深度 
神经 网 络 好 了 。 不 过 呢 ， 深 度 学 习 这 个 词 我 觉得 还 有 另外 一 个 层面 的 意思 ， 就 是 说 用 这 样 
一 个 网 络 可 以 学 到 很 多 深层 次 的 东西 ， 能 够 提取 到 很 多 用 纯粹 基于 统计 学 指标 、 传 统 机 器 
学 习 或 显 式 的 特征 与 内 容 描述 所 无 法 名 状 的 东西 。 机 器 能 够 学 习 到 比较 丰富 的 信息 ， 这 是 
人 类 在 发 明 出 计算 机 以 后 一 直 都 在 尝试 挑战 的 一 个 领域 。 读 过 本 书 姊妹 篇 《白话 大 数据 与 
机 器 学 习 》 的 朋友 估计 应 该 不 会 陌生 ,在 那 本 书 中 ,我 们 讨论 过 很 多 机 器 学 习 相 关 的 算法 。 
在 这 种 非 深 度 学 习 的 场景 中 一 一 我 姑且 称 之 为 “ 浅 度 学 习 ” 吧 ， 人 们 输入 给 模型 的 学 习 样 
本 都 是 要 经 过 高 度 提炼 的 向 量 内 容 ， 而 不 能 像 我 们 在 深度 学 习 那 样 直接 把 一 张 图 、 一 段 语 
音 、 一 段 视频 的 多 媒体 资料 丢 给 机 器 去 学 习 。 

就 拿 我们 前 面 说 过 的 那个 例子 来 看 ，( 年 龄 ， 身 高 ， 体 重 ， 血 压 ， 血 脂 ) 这 样 的 数据 向 
量 必须 由 人 来 提取 、 整 理 并 明确 定义 每 个 向 量 维度 的 确实 含义 。 剩 下 的 过 程 就 是 基于 这 些 
人 类 已 经 抽象 过 的 指标 来 寻找 它们 之 间 的 逻辑 关系 。 这 就 是 与 “深度 学 习 ” 相 对 的 “ 浅 度 
学 习 ” 的 工作 场景 。 

如 果 使 用 贝 叶 斯 概率 进行 学 习 ， 那 就 是 用 统计 的 方法 解释 不 同事 件 先 验 概率 和 后 验 概 
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率 的 量化 关系 计算 问题 ; 如 果 使 用 决策 树 归 纳 一 个 分 类 模型 ， 那 就 是 用 维度 的 引入 把 分 类 
模型 向 信息 灶 降 低 的 方向 做 引导 ， 还 是 一 个 统计 过 程 ; 如 果 是 用 支持 向 量 机 SVM 做 分 类 ， 
那 就 是 寻找 超 平面 来 保证 分 类 的 置信 和 度 最 大 ， 也 就 是 让 样本 点 距离 超 平 面 尽 可 能 远 ， 仍然 
是 一 个 统计 过 程 ; 这 些 问 题 大 部 分 靠 线性 模型 或 者 统计 学 概率 模型 能 够 给 出 清晰 的 物理 含 
义 解 释 ， 当 然 它 们 的 局 限 性 也 非常 明显 。 如 果 读 者 朋友 对 这 个 部 分 还 不 是 太 了 解 ， 建 议 参 
考 相 关 的 书籍 进行 一 下 知识 补充 。 

注意 ， 在 这 里 要 强调 一 下 ， 在 很 多 初学 者 中 有 一 些 误 区 ， 很 多 人 会 认为 深度 学 习 在 任 
何 情况 下 都 要 比 传统 机 器 学 习 表 现 更 好 ， 但 实际 上 并 不 是 的 。 其 实 想 想 也 知道 ， 这 不 符 
合 “ 尺 有 所 短 ， 寸 有 所 长 ”的 哲学 观点 。 从 前 面 的 叙述 可 以 看 出 来 ， 传 统 机 器 学 习 在 工作 
的 过 程 中 具有 非常 好 的 解释 特性 ， 或 者 说 你 知道 模型 在 做 什么 ， 处 理 的 是 什么 特征 ， 其 中 
任何 一 个 指标 值 的 大 小 变化 的 意义 会 有 良好 的 解释 。 而 且 ， 传 统 机 器 学 习 在 训练 的 过 程 中 
需要 很 少 的 样本 向 量 ， 通 常 都 是 百 级 或 者 千 级 就 够 了 ， 这 对 于 深度 学 习 来 说 也 是 无 法 做 到 
的 一 一 它 需 要 数 以 万 计 的 样本 来 做 训练 。 所 以 ， 大 家 千 万 不 要 盲目 迷信 深度 学 习 的 能 力 ， 
也 不 要 误 读 了 深度 学 习 的 作用 。 

人 类 的 眼睛 、 耳 条 、 口 舌 ， 是 上 天 赐 给 人 类 最 敏感 和 感知 细腻 的 器 官 。 没 错 ， 眼 睛 让 
我 们 看 到 不 同 的 形状 、 不 同 的 颜色 、 不 同 的 大 小 ， 它 使 我 们 能 够 轻松 辨别 千 百 万 种 不 同 的 
物体 ; 耳 条 可 以 听 到 20 Hz ~ 20 000 Hz 之 间 的 声波 ， 能 够 感知 不 同 的 人 通过 声波 传递 给 我 
们 的 信息 ; 口舌 的 存在 也 极为 精妙 ， 舌 头 可 以 用 来 尝 出 酸甜苦辣 咸 (医学 家 说 “ 辣 ” 的 辨别 
其 实 不 是 舌头 的 特性 ， 而 是 包括 皮肤 在 内 的 很 多 细胞 都 有 的 特性 )， 而 人 的 声带 发 出 的 声音 
或 高 亢 喷 亮 ， 或 低 回 婉 转 ， 能 够 传递 蕴含 着 丰富 信息 的 音频 数据 。 

刚刚 说 的 这 些 领 域 中 的 数据 信息 大 都 属于 特征 提取 比较 困难 的 ， 数 据 量 大 ， 而 且 没 办 
法 通过 线性 关系 或 者 统计 概率 关系 直接 描述 。 这 些 信息 中 蕴含 的 分 类 规则 对 于 只 会 做 加 减 
乘除 、 比 大 小 和 读 写 数据 的 计算 机 来 说 显得 太 困难 了 。 你 想 啊 ， 把 一 张 照片 送 到 计算 机 里 
面 ， 你 就 让 他 判断 这 里 面 的 人 物 漂 亮 不 漂亮 ， 不 难为 死 它 么 ? 它 看 到 的 不 过 是 一 堆 堆 的 数 
字 而 已 ， 还 没 法 直接 比 大 小 。 


fpi xm HERR 
N 





a (ЖАШ) 
ww ai bbt.com 60 00000 


第 2 章 “深度 学 习 是 什么 d. 27 


遗憾 的 是 ， 这 种 非 离散 的 数据 信息 是 远 比 我 们 前 面 例子 所 指出 的 病 患 体 检 指 标的 数据 难 
于 量化 的 。 也 许 有 人 说 ， 不 对 ,起 码 音频 视频 的 数字 化 早 在 几 十 年 前 就 已 经 被 人 类 掌握 并 非 
常 成 熟地 应 用 于 家 用 PC 中 了 ， 我 们 现在 用 的 mpeg 文件 、avi 文件 、mp3 和 mp4 文件， 里 
面 都 蕴含 着 丰富 的 音 视频 多 媒体 信息 ， 怎 么 能 说 难于 量化 呢 。 是 的 ， 这 些 文件 确实 可 以 用 来 
承载 完整 的 音 视频 信息 ， 但 是 这 些 音 视频 信息 最 终 的 解读 在 相当 长 的 一 段 时 间 内 只 能 由 人 来 
完成 。 换 句 话 说 ， 在 一 张 照片 中 ， 究 竟 表 示 的 是 一 匹 马 ， 一 辆 车 ; 在 一 段 视频 里 ， 播 放 的 究 
竟 是 一 部 歌剧 ， 还 是 一 部 动作 电影 ， 这 些 内 容 让 计算 机 自己 来 做 判断 和 识别 几乎 是 没有 办 法 
的 。 因 为 ， 我 们 量化 存储 的 这 些 帧 数据 所 承载 的 信息 都 是 关于 屏幕 上 某 个 点 的 颜色 的 ， 而 这 
是 极 难 与 其 实际 承载 的 内 容 发 生 关联 的 ， 更 别 说 还 要 进行 相应 统计 和 概率 计算 了 。 

比如 下 面 这 两 张 图 片 ， 我 们 打眼 一 看 就 觉得 两 幅 雕 塑 表示 的 内 容 主 题 是 相似 的 。 但 是 
承载 它 的 文件 你 用 肉眼 再 怎么 仔细 看 ， 也 无 法 看 出 这 一 堆 堆 数据 之 间 的 关系 ， 不 仅 如 此 ， 
即便 你 用 其 他 任何 一 种 常规 性 的 机 器 学 习 算 法 ， 你 也 无 法 把 这 两 个 雕塑 关联 在 一 起 ， 因 为 
它们 看 上 去 是 如 此 “不 相似 ”。 





在 我 们 连 图 片 所 承载 的 内 容 信 息 是 不 是 相似 都 无 法 判断 的 情况 下 ， 显 然 是 没有 办 法 做 
更 深 一 步 的 分 析 的 。 在 我 们 束手无策 的 时 候 ， 出 现 了 一 类 神器 一 般 的 算法 逻辑 系统 ， 这 就 
是 我 们 刚才 所 说 的 神经 网 络 ， 尤 其 是 层级 比较 深 的 神经 网 络 。 


000001B0 |02 01 02 04 04 03 04 07 05 04 04 00 01 02 77 00 
000001CO | 01 02 03 11 04 05 21 31 06 12 41 51 07 61 71 13 
00000100 | 22 32 81 08 14 42 91 A1 B1 C1 09 23 33 52 FO 15 
000001Е0 | 62 72 01 OA 16 24 34 Е1 25 F1 17 18 19 1А 26 27 
000001F0 |28 29 2A 35 36 37 38 39 3A 43 44 45 46 47 48 49 
00000200 | 4А 53 54 55 56 57 58 59 SA 63 64 65 66 67 68 69 
00000210 | 6А 73 74 75 76 77 78 79 7А 82 83 84 85 86 87 88 
00000220 |89 8A 92 93 94 95 96 97 98 99 9A A2 АЗ A4 А5 AG 
00000230 |А7 A8 А9 AA B2 B3 B4 B5 B6 B7 B8 ВЭ BA C2 СЗ C4 
00000240 CS C6 C7 C8 C9 CA D2 D3 D4 DS рє D7 D8 рэ DA E2 
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000001B0 |1F 01 00 03 01 01 O1 01 01 01 01 01 01 оо 00 00 
000001CO |00 00 OO 01 02 03 04 05 06 07 08 09 OA OB FF C4 
00000100 |00 B5 11 00 02 01 02 04 04 03 04 07 05 04 04 00 
000001Е0 01 02 77 00 01 02 03 11 04 05 21 31 06 12 41 51 
000001Е0 07 61 71 13 22 32 81 08 14 42 91 А1 B1 C1 09 23 
00000200 |33 52 FO 15 62 72 D1 OA 16 24 34 E1 25 F1 17 18 
00000210 |19 1А 26 27 28 29 2А 35 36 37 38 39 ЗА 43 44 45 
00000220 | 46 47 48 49 4A 53 54 55 56 57 58 59 SA 63 64 65 
00000230 | 66 67 68 69 6A 73 74 75 76 77 78 79 7A 82 83 84 
00000240 |85 86 87 88 89 8A 92 93 94 95 96 97 98 99 9A AD 








深度 学 习 〈deep learning) 这 个 概念 最 早 是 由 著名 计算 机 科学 家 Geoffrey Hinton 9^5 Л. 
于 2006 年 和 2007 年 在 《科学 》(《 Sciences 》) 杂志 上 发 表 的 文章 中 所 提出 的 。 就 深度 学 习 
而 言 ， 在 最 初 被 提出 的 时 候 指 的 是 深度 神经 网 络 ( deep neural network)， 而 随 着 神经 网 络 层 
数 的 增多 ， 网 络 就 具备 了 很 多 原先 非 深度 神经 网 络 所 不 具备 的 学 习 能 力 ， 在 设计 合理 的 情 
况 下 它 能 学 到 很 多 层面 的 内 容 ， 显 得 更 为 “智能 ” 。 也 正 是 因为 这 一 点 ， 它 使 我 们 人 类 感觉 
到 它 学 习 层面 的 “深度 ”。 还 是 那 句 话 ， 虽 然 “ 深 度 学 习 ” 这 个 词 本 身 单 指 网 络 的 深度 ， 但 
是 如 果 你 认为 它 指 的 是 学 习 层 面 有 深度 ， 我 觉得 同样 不 能 算 错 ， 因 为 它 真 的 是 这 样 ， 你 在 
后 面 就 会 看 到 它 有 多 么 强大 了 。 


23 深度 学 习 为 什么 这 么 强 


神经 网 络 ， 尤 其 是 深度 神经 网 络 之 所 以 这 么 吸引 人 ， 主 要 是 因为 它 能 够 通过 大 量 的 线 
性 分 类 器 和 非 线性 关系 的 组 合 来 完成 平时 非常 环 手 的 线性 不 可 分 的 问题 。 


2.3.1 不 用 再 提取 特征 
前 面 我 们 说 过 ， 在 以 往 我 们 使 用 的 朴素 贝 叶 斯 、 决 策 树 、 支 持 向 量 机 SVM 这 些 分 类 器 


Ө Geoffrey Hinton ( 1947 年 12 月 一 )， 神 经 网 络 之 父 。 
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模型 中 ， 提 取 特 征 是 一 个 非常 重要 的 前 置 工作 ， 也 就 是 说 人 类 在 驱使 这 些 分 类 器 开始 训练 
之 前 ， 先 要 把 大 量 的 样本 数据 整理 出 来 ，“ 干 干净 净 ” 地 提取 其 中 能 够 清晰 量化 的 数据 维度 。 
否则 这 些 基 于 概率 和 基于 空间 距离 的 线性 分 类 器 是 没 办 法 进行 工作 的 。 

然而 在 神经 网 络 中 ， 由 于 巨 量 的 线性 分 类 器 的 堆 释 Of Rm) 以 及 卷 积 网 络 的 使 
用 ， 它 对 噪声 的 忍耐 能 力 、 对 多 通道 数据 上 投射 出 来 的 不 同 特征 偏向 的 敏感 程度 会 自动 重 
视 或 者 忽略 。 这 样 我 们 在 处 理 的 时 候 ， 人 类 所 需要 使 用 的 技巧 就 没有 那么 高 要 求 了 ， 也 就 
是 我 们 通常 所 说 的 End-to-End 的 训练 方式 。 

这 是 一 种 非常 新 颖 并 且 非 常 有 吸引 力 的 方式 ， 人 类 对 机 器 学 习 中 的 环节 干预 越 少 ， 就 
意味 着 距离 人 工 智能 的 方向 越 近 ， 这 让 我 们 充满 了 对 未 来 的 期 望 。 


2.3.2 ”处 理 线性 不 可 分 


神经 网 络 还 有 一 个 最 神奇 的 地 方 ， 那 就 是 用 大 量 的 线性 分 类 器 的 堆 释 使 得 整个 模型 可 
以 将 线性 不 可 分 的 问题 变 得 可 分 。 看 看 下 面 这 个 简单 的 例子 。 

SVM 也 有 一 定 的 能 力 来 处 理 线性 不 可 分 的 问题 ， 但 它 利用 的 是 维度 的 引入 (或 者 说 升 
维 ) 来 解决 的 。 而 神经 网 络 的 每 一 个 神经 元 都 是 一 个 线性 分 类 器 ， 所 以 神经 网 络 能 且 只 能 通 
过 线性 分 类 器 的 组 合 来 实现 线性 不 可 分 的 问题 。 





例如 ， 在 这 个 二 维 空间 中 有 这 样 一 个 不 规则 的 四 边 形 ， 如 果 我 们 想 用 一 条 线 (一 个 线性 
分 类 器 ) 把 它 分 开 ， 并 保证 其 一 侧 是 这 个 四 边 形 内 所 有 的 点 ， 我 们 称 为 “类 别 1”"， 男 一 侧 
是 其 他 的 点 ， 我 们 称 为 “类 别 0”"， 这 简直 是 不 可 能 的 ， 因 为 不 管 怎么 画 ， 这 一 条 线 都 会 使 
得 其 中 至 少 有 一 个 类 非常 “不 纯 ”。 没 关系 ,我 们 大 不 了 画 4 条 线 了 ， 


Ө 指 那些 不 经 过 人 为 处 理 ， 直 接 把 输入 和 期 望 输出 作为 网 络 训练 的 工作 模式 的 训练 方法 。 这 种 方法 通常 需要 
的 样本 数量 极 大 。 
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用 这 4 条 线 把 它 围 起 来 ， 也 就 是 必须 同时 满足 4 个 分 类 器 的 1 分 类 标准 才 算是 我 们 要 
约束 的 1 分 类 一 一 每 条 直线 的 表达 式 都 是 形 如 fx)=wx+5 的 线性 分 类 器 。 其 实 这 也 就 是 神 
经 网 络 比 以 前 各 种 分 类 器 厉害 的 地 方 了 ， 以 前 任何 一 种 分 类 器 可 都 没有 这 种 能 耐 。 这 里 画 
出 来 的 这 个 不 规则 四 边 形 不 一 定 是 一 张 图 片 中 的 信息 ， 它 只 是 用 来 表示 一 些 向 量 在 空间 中 
的 聚集 区 域 。 

神经 网 络 的 神经 元 可 以 有 很 多 层 ， 每 层 可 以 有 很 多 个 神经 元 ， 整 个 网 络 的 规模 可 以 有 
几 千 甚至 几 万 个 神经 元 ， 那么 在 这 种 情况 下 ， 我 们 几乎 可 以 描绘 出 任意 的 线性 不 可 分 的 模 
型 了 。 当 然 ， 我 们 这 里 只 是 用 一 个 简单 的 二 维 向 量 来 进行 示意 ， 真 正 的 商用 场景 中 ， 这 些 
向 量 通常 有 几 十 万 个 维度 或 者 更 多 ， 神 经 网 络 的 层 数 也 会 非常 深 一 一 这 就 是 我 们 平时 所 说 
的 深度 学 习 了 。 随 着 维度 的 加 大 ， 深 度 的 加 深 ， 所 能 描述 的 分 类 器 的 复杂 程度 也 会 随 之 增 
加 ， 所 以 传统 分 类 模型 中 无 法 通过 简单 的 线性 分 类 器 和 非 线性 分 类 器 处 理 的 复杂 学 习 场景 
(例如 图 形 、 视 频 、 音 频 等 ) 就 能 够 通过 海量 分 类 器 的 有 加 来 实现 。 


24 深度 学 习 应 用 


我 们 在 第 1 章 所 介绍 过 的 谷歌 无 人 驾驶 汽车 仅仅 是 深度 学 习 的 一 个 典型 应 用 ， 深 度 学 
习 的 应 用 领域 越 来 越 多 ， 而 且 是 几乎 在 任何 一 个 产业 中 都 有 其 落地 的 身影 。 我 们 先 来 看 几 
个 有 趣 的 应 用 。 


2.4.1 围棋 机 器 人 一 一 AlphaGo 


击败 李 世 石 的 谷歌 AlphaGo 就 不 用 说 了 ， 它 已 经 进入 我 们 的 视线 很 久 了 。 
它 由 谷歌 旗下 DeepMind я] ИЕ + 西 尔 弗 ( David Silver), KE - 黄 和 戴 密斯 - 哈 
萨 比 斯 (Demis Hassabis) 与 他 们 的 团队 开发 ， 这 个 程序 利用 价值 网 络 (value network) 去 计 
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算 局 面 ， 用 策略 网 络 (policy network) 去 选择 下 子 。2015 年 10 月 AlphaGo 以 5 : 0 完胜 
欧洲 围棋 冠军 、 职 业 二 段 选手 匈 糜 ; 2016 年 3 月 对 战 世 界 围棋 冠军 、 职 业 九 段 选手 李 世 石 ， 
并 以 4 : 1 的 总 比分 获胜 。2016 年 7 月 18 日 ， 世 界 职业 围棋 排名 网 站 GoRatings 公布 最 新 
世界 排名 ，AlphaGo 以 3612 分 ， 超 越 3608 分 的 柯 洁 成 为 新 的 世界 第 一 。 

AlphaGo 其 实 是 有 两 个 “大 脑 ” 组 成 的 ， 也 就 是 两 套 完整 的 深度 学 习 网 络 来 进行 配合 
计算 的 。 

第 一 大 脑 : 落 子 选择 器 (move picker) 

AlphaGo 的 第 一 个 神经 网 络 大 脑 是 “监督 学 习 的 策略 网 络 "， 观 察 棋盘 布局 企图 找到 最 
佳 的 下 一 步 。 事 实 上 ， 它 所 基于 的 理论 仍旧 是 遍历 一 棵 树 。 它 预测 每 一 个 符合 规则 的 下 一 
步 的 最 佳 概率 ， 或 者 说 是 每 一 步 落 子 后 获胜 的 概率 ， 然 后 选择 其 中 一 个 获胜 概率 最 高 的 位 
置 落 子 。 这 可 以 理解 成 落 子 选择 器 。 


Value network 
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第 二 大 脑 : 棋局 评估 器 (position evaluator). 

AlphaGo 的 第 二 个 大 脑 棋局 评估 器 是 在 做 另外 一 件 事情 。 它 可 以 用 来 评价 一 个 盘面 的 
好 坏 程 度 ， 所 以 这 种 所 谓 的 棋局 评估 器 就 是 价值 网 络 ， 通 过 整体 局 面 判 断 来 辅助 落 子 选择 
器 。 这 个 判断 仅仅 是 个 大 概 的 价值 评估 ， 但 对 于 盘面 的 阅读 速度 提高 很 有 帮助 。 通 过 分 析 
潜在 的 未 来 局 面 的 “好 ”与 “ 坏 "，AlphaGo 能 够 决定 是 否 通过 特殊 变种 去 深入 阅读 ， 也 就 
是 多 看 几 步 棋 。 如 果 棋 局 评估 器 说 这 个 特殊 盘面 的 变种 不 行 ,那么 AI 就 跳 过 阅读 在 这 一 条 
线 上 的 任何 更 多 落 子 ， 从 而 加 快 盘面 阅读 的 速度 。 
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在 这 个 围棋 软件 的 背后 可 以 说 是 凝聚 了 大 量 的 深度 学 习 工 程 师 的 心血 的 ， 不 过 也 可 以 
说 是 凝聚 了 全 世界 所 有 围棋 高 手 和 围棋 爱好 者 的 心血 。AlphaGo 变 得 这 么 强悍 ， 不 是 因为 
它 天 生 有 这 人 么 强 的 功能 ， 而 是 因为 它 在 不 断 和 世界 上 所 有 的 围棋 高 手 以 及 围棋 爱好 者 下 模 
的 过 程 中 不 断 进 行 学 习 和 自我 完善 一 它 每 天 可 以 完成 100 万 盘 棋 ， 甚 至 是 让 自己 的 “ 左 
手 ” 跟 自己 的 “右手 ”下 棋 ， 并 从 中 总 结 规律 。 这 是 任何 人 类 都 无 法 做 到 的 。 


2.4.2 ”被 教 坏 的 少女 一 Tai.ai 


同样 是 在 2016 年 3 月 ， 微 软 在 测试 一 款 新 型 聊天 机 器 人 Tay.ai， 不 过 悲剧 的 是 这 款 机 
器 人 在 Twitter 上 经 过 用 户 的 不 正当 “调教 ”已 经 变 成 了 “ 女 流 误 ”"， 不 仅 才 脏 话 ， 还 发 表 
一 些 带 有 种 族 歧视 的 言论 ， 最 后 微软 不 得 不 将 其 下 线 。 
据悉 ， 这 款 聊天 机 器 人 主要 是 定位 于 18 ~ 24 岁 的 美国 年 轻 网 友 ， 微 软 对 机 器 人 的 交 
流 内 容 并 没有 做 任何 设 定 ， 通 过 和 网 友 进 行 对 话 学 习 ， 来 逐渐 形成 自己 的 交流 体系 。 用 户 
只 需 在 Twitter 上 @TayandYou 就 能 得 到 Tay.ai 的 回复 。 
seemed to discover what wax happening and began furiously 


deleting the racst tweets. They also appeared to shut down her learning 
capabilites and she quickly became a feminist: 
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用 户 对 Tay.ai 似乎 很 感 兴趣 ， 不 过 出 乎 意料 的 是 ， 在 24 小 时 之 内 ，Tay.ai 就 开始 被 网 
友 带 坏 ， 发 布 了 不 少 攻击 性 的 言论 ， 让 人 大 跌眼镜 ， 不 少 网 友 见 证 了 Tay.ai УАЙ > te Fi] 
waibbt.com0000000 
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不 良 少女 的 转变 。 有 人 还 画 了 一 种 一 脸 那 念 的 漫画 来 把 这 个 “ 女 机 器 人 ”的 表现 具象 化 。 
目前 微软 方面 表示 正在 对 这 款 人 工 智能 机 器 人 Tay.ai 进行 调整 。 

从 原理 分 类 来 说 ，Tay.ai 所 基于 的 技术 应 该 是 RNN 及 其 扩展 领域 ， 也 就 是 循环 神经 网 
络 recurrent neural networks， 这 种 技术 能 够 比较 容易 识别 上 下 文 关 系 并 对 其 进行 深度 学 习 。 
但 是 同样 是 那个 问题 ,计算 机 自己 是 极 难 识别 “ 善 恶 美 丑 ”的 ， 这 种 对 于 人 的 三 观 会 有 较 
清晰 划 定 的 东西 对 于 计算 机 来 说 确实 很 难 。 

一 方面 人 类 对 抽象 事物 的 理解 本 身 就 有 优势 ， 对 于 与 自己 三 观 有 矛盾 的 东西 本 身 就 有 
天 然 的 抵触 性 ， 但 是 计算 机 没有 一 一 它 没有 判断 这 种 是 非 的 能 力 。 

另 一 方面 ， 计 算 机 学 习 的 速度 真 的 是 快 得 惊人 。 要 不 怎么 说 一 切 事物 都 有 两 面 性 呢 ， 
即使 是 学 坏 它 也 比 一 般 人 学 坏 得 快 。 脏 话 我 们 人 一 分 钟 学 十 句 ， 人 家 一 分 钟 学 个 十 万 句 估 
计 跟 玩 一 样 。 所 以 最 后 实在 没 办 法 ， 微 软 只 能 把 它 下 架 了 。 

不 过 你 也 不 用 想 太 多 ， 虽 说 是 把 机 器 人 教 坏 了 ， 也 只 是 看 上 去 有 点 坏 ， 它 的 内 心 还 是 
“清白 ”的 ， 它 自己 其 实 根本 只 是 在 模仿 人 类 说 话 ， 根 据 上 下 文 找 一 句 看 上 去 “最 该 说 的 ” 
话 , 但 它 其 实 并 不 知道 自己 在 真 的 说 什么 。 


243 ”本 田 公司 的 大 宝贝 一 一 ASIMO 


日 本 本 田 是 一 家 世界 驰名 的 大 公司 ， 我 们 现在 知道 更 多 的 是 本 田 的 汽车 和 摩托 车 ， 而 
最 令 本 田 引 以 为 豪 的 其 实 是 它们 公司 的 宝贝 ASIMO 一 一 阿 西 莫 。 有 兴趣 的 话 ， 读 者 朋友 们 
可 以 去 访问 一 下 本 田 公 司 的 阿 西 莫 子 站 点 http://www.honda.co.jp/ASIMO/about/。 





应 该 说 阿 西 莫 是 目前 世界 上 为 数 不 多 的 可 以 以 类 人 型 出 现 的 综合 场景 应 用 的 机 器 人 。 
阿 西 莫 的 身高 为 130cm， 宽 45cm， 进 深 34cm， 最 大 行进 速度 为 每 小 时 9km 一 一 可 别 小 看 ， 
人 家 是 可 以 双 脚 离 地 进行 奔跑 的 9km 啊 。 可 以 连续 行走 40min 不 用 充电 。 
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它 背 后 的 匣子 就 是 电池 ， 比 我 们 平时 用 的 手机 电池 大 多 了 ， 不 过 也 没 办 法 ， 这 么 复杂 
的 机 器 人 不 耗 电 才 奇怪 。 

它 的 头 部 、 腕 部 、 手 部 、 腰 部 、 脚 部 有 很 多 的 自由 关节 ， 整 个 肢体 合计 可 以 有 57 个 自 
由 度 的 弯曲 维度 ， 感 触 极 为 细腻 ， 所 以 他 所 能 做 的 事情 也 是 非常 令 人 叹为观止 的 。 


— 
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它 可 以 根据 人 的 行走 方向 做 预 判 ， 并 调整 自己 的 行进 方向 不 要 与 对 方 发 生 碰撞 。 





即便 是 三 个 人 同时 说 话 它 也 能 听 清 楚 三 个 人 分 别 讲述 的 内 容 并 加 以 复述 。 
你 以 为 光 这 样 就 完了 吗 ? 那 可 太 低 估 人 家 了 。 
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还 有 就 是 类 似 踢 球 和 上 下 楼 这 种 对 平衡 性 要 求 极为 苛刻 的 事情 ， 阿 西 莫 也 能 轻松 胜任 。 
怎么 样 ， 是 不 是 确实 很 厉害 ? 

对 于 阿 西 葛 的 训练 来 说 ， 深 度 学 习 的 技术 肯定 是 少不了 了 。 不 过 除 此 之 外 重 厉 害 的 恺 
怕 还 是 本 田 公 司 的 各 种 硬件 感知 器 技术 、 材 料 工 程 技术 (包括 电池 、 超 导 等 )、 自 动 化 技术 
竺 综合 领域 的 结合 和 应 用 。 阿 西 莫 基 本 代表 了 当今 世界 人 形 机 器 人 制造 的 最 高 水 平 ， 目 前 
能 够 做 到 与 这 个 水 平 类 似 的 机 器 人 制造 团队 还 是 寥寥 无 几 。 给 笔者 印象 最 深 的 还 是 美国 的 
Boston Dynamics 公司 的 Atlas 系列 机 器 人 ， 虽 然 样子 没有 阿 西 莫 那 么 萌 吧 ， 但 是 也 能 够 双 
脚 行走 ， 而 且 在 湿 滑 的 地 面 上 走 也 不 会 摔 倒 。 被 人 故意 推倒 也 能 站 起 来 ， 还 能 够 负重 走路 
保持 平衡 ， 也 是 让 人 眼前 一 亮 。 


人 形 机 器 人 的 制造 是 对 综合 学 科 的 应 用 的 考验 ， 能 够 进行 制造 和 普及 才能 够 彰显 科 
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技 大 国 的 真正 实力 ， 笔 者 本 人 也 是 非常 期 望 中 国 能 够 早点 出 现 能 够 与 阿 西 莫 媲 美的 人 形 
机 器 人 。 


2.5 ”小结 


深度 学 习 是 一 种 前 景 非常 好 的 应 用 领域 ， 也 就 是 我 们 平时 说 的 “看 不 到 天 花 板 "”， 它 几 
乎 在 任何 一 个 细 分 领域 都 可 以 有 比较 好 的 应 用 ， 并 且 能 够 产生 大 量 的 剩余 价值 ， 发 展 生产 
力 。 而 且 随 着 计算 机 计算 性 能 的 不 断 提升 ， 深 度 学 习 的 应 用 也 将 积累 更 快 ， 落 地 更 廉价 。 
我 们 有 充分 的 理由 相信 ， 深 度 学 习 的 发 展 将 是 未 来 几 十 年 内 世界 科技 发 展 的 最 为 重要 的 领 
域 之 一 

不 过 像 阿 西 莫 这 样 的 机 器 人 的 训练 过 程 ， 不 会 仅仅 只 依赖 一 套 深度 神经 网 络 来 充当 其 
大 脑 的 ， 远 没有 那么 简单 。 除 去 所 有 制造 性 质 的 环节 不 说 ， 就 是 机 器 人 本 身 也 很 可 能 有 着 
多 套 功能 强大 的 深度 神经 网 络 并 且 要 通过 一 定量 的 强化 学 习 ( reinforcement learning) ЖЖ 
行 互动 式 的 训练 ， 长 期 反复 积累 才能 达到 一 定 的 智能 水 平 。 强 化 训练 时 有 一 套 比 较 有 效 的 
对 训练 智能 机 器 人 有 和 良好 效果 的 方法 论 ， 我 们 在 第 11 章 有 一 定 的 篇 幅 来 做 说 明 。 我 们 先 看 
单独 的 深度 学 习 网 络 怎么 玩 。 
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EN ней TensorFlow 框架 特性 与 安装 


随 着 深度 学 习 技术 的 逐步 兴起 ， 世 界 范围 内 支持 深度 学 习 的 框架 也 如 雨后春笋 。 那 些 
各 大 学 实验 室 制作 出 来 的 不 出 名 的 小 项 目 就 不 必 提 了 ， 单 说 现在 在 业界 使 用 比较 普遍 的 框 
架 就 有 TensorFlow, Caffe, Theano, Torch 等 不 下 十 种 。 

我 们 在 这 本 书 中 选用 TensorFlow 是 因为 笔者 认为 TensorFlow 作为 谷歌 重要 的 开源 项 
目 ， 其 未 来 的 社区 热度 应 该 是 容易 保证 的 。 而 一 个 火热 的 社区 对 于 推动 一 个 开源 项 目 发 展 
有 着 至 关 重 要 的 作用 ， 它 能 让 项 目 有 旺盛 的 生命 力 且 在 生命 周期 中 不 断 涌现 新 的 功能 并 以 
较 快 的 迭代 来 更 新 Bug 修复 。 


3.1 简介 


TensorFlow 是 一 个 采用 数据 流 图 ( data flow graphs)， 用 于 数值 计算 的 开源 软件 库 。 节 
M (nodes) 在 图 中 表示 数学 操作 ,图 中 的 线 (edges) 则 表示 在 节点 间 相 互联 系 的 多 维 数据 
数组 ， 即 张 量 (tensor)。 它 灵活 的 架构 让 你 可 以 在 多 种 平台 上 展开 计算 ， 例 如 台式 计算 机 中 
的 一 个 或 多 个 CPU (或 GPU)、 服 务 器 、 移 动 设备 等 。TensorFlow 最 初 由 Google 大 脑 小 组 
(隶属 于 Google 机 器 智能 研究 机 构 ) 的 研究 员 和 工程 师 们 开发 出 来 ， 用 于 机 器 学 习 和 深度 神 
经 网 络 方面 的 研究 ， 但 这 个 系统 的 通用 性 使 其 也 可 广泛 用 于 其 他 计算 领域 。 

下 面 这 张 图 就 是 数据 流 图 ， 数 据 流 图 用 节点 和 线 的 有 向 图 来 描述 数学 计算 。“ 节 点 ”一 
般 用 来 表示 施加 的 数学 操作 ， 但 也 可 以 表示 数据 输入 feed in) 的 起 点 /输出 ( push out) 的 
终点 ,或 者 读 取 / 写 入 持久 变量 (persistent variable) 的 终点 。 线 表示 节点 之 间 的 输入 /输出 
关系 。 这 些 数据 “ 线 ” 可 以 运输 “ size 可 动态 调整 ”的 多 维 数据 数组 ， 即 张 量 。 张 量 从 图 
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中 流 过 的 直观 图 像 是 这 个 工具 取 名 为 “TensorFlow” 的 原因 。 一旦 输入 端的 所 有 张 量 准 备 
好 ， 节 点 将 被 分 配 到 各 种 计算 设备 完成 异步 并 行 运算 。 





32 与 其 他 框架 的 对 比 


1) TensorFlow: 深度 学 习 最 流行 的 库 之 一 ， 是 谷歌 在 深刻 总 结 了 其 前 身 DistBelief 的 
经 验 教 训 上 形成 的 ; 它 不 仅 便 携 、 高 效 、 可 扩展 ， 还 能 在 不 同 计算 机 上 运行 : 小 到 智能 手 
机 ， 大 到 计算 机 集群 ; 它 是 一 款 轻 量 级 的 软件 ， 可 以 立刻 生成 你 的 训练 模型 ， 也 能 重新 实 
现 它 ; TensorFlow 有 强大 的 社区 、 企 业 支 持 ， 因 此 它 广 泛 用 于 从 个 人 到 企业 、 从 初创 公司 
到 大 公司 等 不 同 群 体 。 

2) Caffe; 卷 积 神经 网 络 框 架 ， 专 注 于 卷 积 神经 网 络 和 图 像 处 理 ， 是 用 C++ 语言 写成 
的 ,执行 速度 非常 快 。 
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3) Chainer; 一 个 强大 、 灵 活 、 直 观 的 机 器 学 习 Python 软件 库 ， 能 够 在 一 台 机 器 上 利 
用 多 个 GPU， 由 深度 学 习 创业 公司 Preferred Networks 开 发 ， 在 Github 上 有 相当 数量 的 项 目 ; 
Chainer 的 设计 基于 “define by run” 原 则 ， 也 就 是 说 ， 该 网 络 在 运行 中 动态 定义 ， 而 不 是 
在 局 动 时 定义 ， 这 也 是 该 框架 的 一 大 亮点 。 

4) CNTK: CNTK ( Computational Network ToolKit ) 是 微软 研究 人 员 开 发 的 用 于 深度 
神经 网 络 和 多 GPU 加 速 技术 的 完整 开源 工具 包 。 微 软 称 CNTK 在 语音 和 图 像 识 别 方面 ， 比 
谷歌 的 TensorFlow 等 其 他 深度 学 习 开 源 工 具 包 更 有 优势 。 

5) Deeplearning4j: 专注 于 神经 网 络 的 Java 库 ， 可 扩展 并 集成 Spark, Hadoop 和 其 他 
基于 Java 的 分 布 式 集成 软件 。 

6) Nervana Neo: 是 一 个 高 效 的 Python 机 器 学 习 库 ， 它 能 够 在 单个 机 器 上 使 用 多 个 
GPU。 

7) Theano: 是 一 个 用 Python 编写 的 极其 灵活 的 Python 机 器 学 习 库 ， 用 它 定义 复杂 的 
模型 相当 容易 ， 因 此 它 在 研究 中 极其 流行 。 

8) Torch: 是 一 个 专注 于 GPU 实现 的 机 器 学 习 库 ， 得 到 了 像 Facebook 、 谷 歌 、Twitter 
这 样 的 大 公司 的 研究 团队 的 支持 。 


3.3 ”其 他 特点 
TensorFlow 有 很 多 的 特点 ， 当 然 这 些 特点 不 见得 都 是 独一无二 的 。 


1. 多 环境 与 集群 支持 

首先 ，TensorFlow 支持 在 PC 的 CPU 环境 、GPU 环境 甚至 是 安 卓 环境 中 运行 。 它 不 仅 
可 以 支持 在 单个 计算 单元 (一 颗 CPU 的 多 核心 或 一 颗 GPU 的 多 核心 ) 上 进行 运算 ， 也 支持 
一 台 机 器 上 多 个 CPU 或 多 个 GPU 上 并 行 计算 。 

2016 年 4 月 14 日 ，Google 发 布 了 分 布 式 TensorFlow， 能 够 支持 在 几 百 台 机 器 上 并 行 
训练 。 分 布 式 的 TensorFlow 由 高 性 能 的 gRPC 库 作 为 底层 技术 支持 。TensorFlow 集群 由 一 
ANNES AM, ARES HUT TensorFlow 的 图 计算 。 每 个 任务 会 关联 到 TensorFlow 的 一 
个 服务 ， 该 服务 用 于 创建 TensorFlow 会 话 及 执行 图 计算 。TensorFlow 集群 也 可 以 划分 为 一 
个 或 多 个 作业 ， 每 个 作业 可 以 包含 一 个 或 多 个 任务 。 在 一 个 TensorFlow 集群 中 ， 通 常 一 个 
任务 运行 在 一 个 机 器 上 。 如 果 该 机 器 支持 多 GPU 设备 ， 可 以 在 该 机 器 上 运行 多 个 任务 ， 由 
应 用 程序 控制 任务 在 哪个 GPU 设备 上 运行 。 

常用 的 深度 学 习 训 练 模型 为 数据 并 行 化 ， 即 TensorFlow 任务 采用 相同 的 训练 模型 在 不 
同 的 小 批量 数据 集 上 进行 训练 ,然后 在 参数 服务 器 上 更 新 模型 的 共享 参数 。TensorFlow Ж 
持 同步 训练 和 蜡 步 训练 两 种 模型 训练 方式 。 

异步 训练 即 TensorFlow 上 每 个 节点 上 的 任务 为 独立 训练 方式 ， 不 需要 执行 协调 操作 ， 
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如 下 图 所 示 : 






Asynchronous Data Parallelism 


同步 训练 为 TensorFlow 上 每 个 节点 上 的 任务 需要 读 入 共享 参数 ， 执 行 并 行 化 的 梯度 计 
算 ， 然 后 将 所 有 共享 参数 进行 合并 ， 如 下 图 所 示 : 


Synchronous Data Parallelism 


这 两 个 图 说 明 的 过 程 具体 是 这 样 的 : 首先 ， 初 始 化 一 个 模型 的 矩阵 w， 把 一 个 批 次 的 
训练 样本 平均 分 成 若干 份 (图 上 是 三 份 )， 分 别 给 到 三 个 节点 去 计算 ， 进 行 正 向 传播 ; 其 次 ， 
在 正 向 传播 后 会 得 到 若干 个 不 同 的 梯度 ， 这 个 就 是 反 向 传播 的 过 程 ， 需 要 把 这 几 个 梯度 向 
ft AP 都 传送 到 一 起 ， 然 后 求 出 一 个 平均 梯度 值 ; 最 后 ， 用 这 个 平均 梯度 值 再 更 新 到 这 几 
个 模型 上 去 ， 完 成 一 个 批 次 的 样本 训练 迭代 过 程 。 这 里 提 到 的 过 程 大 家 可 能 会 觉得 有 些 陌 
生 ， 不 过 没关系 后 面 都 会 提 到 。 

这 就 意味 着 理论 上 讲 TensorFlow 在 处 理 一 个 训练 任务 的 时 候 可 以 在 多 台 服 务 器 的 多 个 
GPU 上 共同 进行 运算 以 加 快速 度 。 不 过 要 注意 的 是 ， 如 果 你 的 网 络 不 够 大 ， 这 种 方式 有 点 
像 高 射 炮 打 蚊 子 一 样 不 经 济 ， 由 于 参数 的 传递 在 网 络 上 是 要 消耗 时 间 的 ， 对 比 在 一 台 机 器 
上 进行 传递 数据 来 说 ， 这 个 传输 消耗 的 时 间 就 显得 有 点 太 久 了 ， 甚 至 还 有 可 能 反而 会 让 训 
练 变 慢 。 

2. TensorBoard 一 一 看 得 见 的 训练 

TensorFlow 有 一 个 比较 友好 的 组 件 ， 它 可 以 让 工作 人 员 在 训练 网 络 的 过 程 中 通过 仪表 
盘 看 到 网 络 目前 的 表现 情况 。 

可 视 化 几乎 是 任何 一 款 软件 都 期 望 进行 强化 的 部 分 ， 因 为 这 样 可 以 给 人 带 来 更 好 的 体 
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验 ， 即 便 这 些 人 已 经 用 惯 了 文字 界面 的 Unix 系统 族 。 





在 TensorBoard 中 你 只 需要 通过 非常 简单 的 配置 命令 : 


# Bm 
tensorboard --logdir-path/to/logs 


就 能 将 它 读 取 的 位 置 指向 日 志 路 径 ， 这 样 就 可 以 读 取 其 中 的 日 志 信 息 并 做 可 视 化 显示 。 
默认 的 Web 界面 位 置 在 http://localhost:6006。 从 界面 上 可 以 看 到 一 个 训练 模型 的 准确 率 以 
及 损失 函数 的 大 小 变化 趋势 。 


ww ai БЫ. сот 60 00000 


第 3 章 TensorFlow 框 架 特性 与 安装 fe 43 


3. TensorFlow Serving 一 一 模型 

TensorFlow Serving 也 是 一 个 TensorFlow 产品 群 的 开源 组 件 ， 可 以 部 署 成 一 个 RESTful 
接口 服务 一 一 类 似 于 网 站 上 的 HTTP 形式 的 API。 是 一 种 用 于 机 器 学 习 模 型 的 高 性 能 开源 
服务 系统 ， 专 为 生产 环境 而 设计 ， 并 针对 TensorFlow 进行 了 优化 处 理 。 

TensorFlow Serving 系统 非常 适用 于 大 规模 运行 能 够 基于 真实 情况 的 数据 并 会 发 生动 态 
改变 的 多 重 模型 。 它 能 够 实现 : 

口 模型 生命 周期 管理 。 

口 使 用 多 重 算法 进行 试验 。 

口 GPU 资源 有 效 使 用 。 

TensorFlow Serving 能 够 简化 并 加 速 从 模型 到 生产 的 过 程 。 它 能 实现 在 服务 器 架构 和 
API 保持 不 变 的 情况 下 ， 安 全 地 部 署 新 模型 并 运行 试验 。 除 了 原生 集成 TensorFlow， 还 可 
以 扩展 服务 其 他 类 型 的 模型 。 下 图 显示 了 简化 的 监督 学 习 过 程 ， 向 learner 输入 训练 数据 ， 
然后 输出 模型 。 





TensorFlow Serving 使 用 (之 前 训练 的 ) 模型 来 实施 推理 一 一 基于 客户 端 呈 现 数据 的 
预测 。 因 为 客户 端 通常 会 使 用 远程 过 程 调 用 (RPC) 接口 来 与 服务 系统 通信 ，TensorFlow 
Serving 提供 了 一 种 基于 gRPC 的 参考 型 前 端 实现 ， 这 是 谷歌 开发 的 一 种 高 性 能 开源 RPC Ж 
构 。 当 新 数据 可 用 或 改进 模型 时 ， 加 载 并 迭代 模型 是 很 常见 的 。 事 实 上 ， 在 谷歌 许多 管线 
经 常 运行 ， 一 旦 当 新 数据 可 用 时 ， 就 会 产生 新 版 本 的 模型 。 这 将 使 得 大 规模 协同 训练 复杂 
任务 变 得 更 方便 。 
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3.4 ”如何 选择 好 的 框架 


作为 计算 模型 来 说 ， 深 度 学 习 中 的 绝 大 部 分 基本 理论 早已 沉淀 成 了 固化 的 计算 模块 、 
函数 或 者 算法 包 。 就 计算 模型 本 身 来 说 ， 框 架 之 间 的 差别 不 会 太 大 ， 也 不 可 能 太 大 ， 除 非 
这 个 领域 的 理论 层面 得 到 了 极 大 的 突破 ， 而 且 这 个 突破 还 是 不 同方 向 且 掌 握 在 个 别 组 织 手 
里 的 。 而 现在 框架 之 间 的 差别 主要 出 现在 这 几 个 地 方 。 

第 一 ， 性 能 方面 。 

这 一 属性 主要 由 底层 的 实现 语言 决定 ， 底 层 运 行 比 较 快 的 仍旧 是 实现 的 语言 。 理 论 上 
说 ， 运 行 速度 最 快 的 仍旧 是 C 或 C++ 一 类 ， 离 着 CPU 指令 近 一 些 语言 效率 高 一 些 。 

笔者 用 过 Torch, TensorFlow, Chainer, Caffe 等 多 种 框架 ， 虽 然 没 有 经 过 系统 地 压 测 
和 对 比 以 及 时 下 流行 的 跑 分 测试 ， 但 仍然 有 个 比较 感性 的 感觉 一 相同 情况 下 Torch 运行 的 
速度 略 快 一 些 ， 而 TensorFlow 老实 说 确实 不 能 算 快 的 甚至 是 这 几 款 里 面 比较 慢 的 。 不 过 笔 
者 从 来 不 觉得 这 是 什么 大 问题 ， 这 种 效率 的 差距 仅仅 是 零点 几 倍 或 者 一 点 几 倍 ， 而 真正 在 
工程 实现 方面 的 差距 大 多 来 自 样本 数量 、 网 络 设计 等 方面 ， 这 些 方面 的 差距 可 能 都 是 一 两 
个 数量 级 的 ( 差 10 倍 或 者 100 倍 )， 所 以 这 种 效率 不 是 最 重要 的 参考 标志 。 

第 二 ， 社 区 活跃 度 。 

这 些 开 源 的 项 目 虽然 多 ， 但 是 社区 活跃 与 否 是 个 非常 重要 的 因素 ， 甚 至 几乎 是 首选 的 
因素 。 活 路 的 社区 意味 着 有 更 多 的 人 正在 使 用 这 样 一 个 项 目 ， 会 有 更 多 的 人 贡献 代码 ， 提 
交 Bug， 遇 到 错误 你 也 很 容易 找到 前 人 踩 坑 留 下 的 垫 坑 石 。 因 而 做 起 项 目 来 风险 也 相对 比 
较 小 ， 学 习 起 来 进步 也 会 快 一 些 。 

第 三 ， 语言 。 

这 几乎 是 最 不 重要 的 一 个 方面 ， 因 为 不 管 什么 语言 ， 实 现 的 框架 大 多 都 会 支持 Python 
的 “驱动 "， 或 者 我 们 称 接口 。 当 然 也 有 很 多 比较 执 描 的 框架 只 提供 人 家 自己 原生 的 接口 ， 
例如 Torch 只 支持 Lua 脚本 ，CNTK 只 支持 C++ 等 。 

说 它 不 重要 是 因为 ， 在 这 样 一 个 应 用 场景 中 网 络 建立 的 逻辑 比较 有 限 ， 所 以 涉及 的 语 
法 内 容 也 非常 有 限 ， 学 习 成 本 也 不 高 ， 反 正 从 逻辑 和 模型 层面 是 没有 差别 的 。 

应 该 说 TensorFlow 在 这 些 方面 做 得 还 都 是 令 人 满意 的 。 首 先 它 有 着 非常 活跃 的 社区 : 
www.tensorflow.org， 主 页 的 日 均 PV 有 40 到 50 万 之 多 。 这 对 于 一 个 小 众 化 的 技术 网 站 已 
经 是 个 不 得 了 的 数字 了 。 


50 万 








0 LS 
ы 2017 年 第 4 周 2017 年 第 6 周 2017 年 第 8 周 2017 年 第 10 周 2017 年 第 11 周 


| 他 日 均 PV 浏览 量 (一 周平 均 ) | 








ww ai bbt.com 60 00000 


第 3 章 TensorFlow 框 架 特性 与 安装 » 45 


它 的 英文 社区 比 中 文 社区 活跃 得 多 ， 而且 在 Stackoverflow 上 的 问题 讨论 也 非常 多 
( https://stackoverflow.com/questions/tagged/tensorflow), Н fil A 8000 多 个 被 跟 帖 的 帖子 ， 
每 天 都 会 有 不 少 新 帖 出 来 ， 所 以 在 成 功 的 路 上 你 不 会 孤单 。 





a tt ee 





Tagged Questions mb | newest! тэш ктен vows MU | 


TensorFlow is an open source library for machine leaming and machine inteligence t ts developed by Google and 
became open source in Nov 2015 


Uem m й нуре, ; wasedow ре 


5 DANA p 


| wanted to merge two sequential models ога егш en m Dux p Sorte Tn 
using image. Oe tee tata ROO inane) and Laich uim is 32 The error coming is 


asked 24 mins ago 
pr 


ValueError Argument must be a dense tensor - Python and TensorFlow 


I'm extracting some gem quom duy codi Qul nib a on hp dn ete 
import tensorflow as tf data = Image open(1-enhanced png) tan data = 


won otn — 
b derer 10.9k «52 «143 «223 


语言 嘛 ,Python 肯定 是 首选 ， 笔 者 大 多 是 使 用 Python 2.7+ TensorFlow 的 方式 来 工作 的 ， 
很 方便 。 

性 能 就 像 我 刚才 所 说 的 ， 虽 然 感 党 上 并 不 快 ， 但 是 满足 目前 的 工作 已 经 足够 了 。 而 且 
这 种 数量 级 的 效率 提升 是 无 法 通过 更 换 一 个 框架 来 实现 的 。 

总 体 来 说 TensorFlow 应 该 是 所 有 深度 学 习 框 架 中 比较 适合 用 来 进行 工程 应 用 的 。 





3.5 ”安装 TensorFlow 


在 整个 安装 的 最 开始 ， i Anaconda， 因 为 它 已 经 集成 了 很 多 Python 的 
第 三 方 库 。 安 装 它 之 后 就 可 以 不 用 再 去 一 个 一 个 地 下 载 这 些 库 并 解决 它们 之 间 的 依赖 关系 
了 ， 是 十 分 方便 的 。 

首先 前 往 continuum 站 点 ， 下 载 地 址 为 https://www.continuum.io/downloads。 

下 载 Anaconda (本 书 用 的 是 4.2.0 版 本 )， 适 用 于 Python2.7 的 版 本 。 

下 载 完 后 ， 执 行 安装 ， 命 令 如 下 : 

bash Anaconda2-4,2.0-Linux-x86_64.sh 


安装 完 后 ， 重 启 ， 命 令 如 下 : 


sudo reboot 
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Anaconda 4.2.0 Python 3.5 version 


|. Anaconda п BSD Nerwed which gws you permission to use Anaconda 


|  Cómmaroaly and for redistribution 


32-BIT INSTALLER (17344 


Changelog c^ 


1. Download the installer 
————: 
2. Optional Verify data integrity with MDS or ©НА-256 了 28 - 
Моге info o 


Python 2.7 version 
3. In your terminal window type one of the below and Foliow the 
Uctions: 


om Lo 
mE 5 0 00 


| 32-BIT INSTALLER (34594) | 
Python 2.7 version A 


NOTE. InCude the "bash" command even If you are not using the bath shell 








建立 FensorFlow 的 运行 环境 ， 并 将 其 激活 ， 执 行 : 


conda create -n tensorflow python=2.7 
source activate tensorflow 


这 样 就 激活 了 虚拟 环境 。 
执行 以 下 代码 进行 TensorFlow 的 安装 : 


pip install tensorflow 


执行 以 下 代码 测试 TensorFlow 是 否 安装 成 功 ， 运 行 一 个 Hello TensorFlow., 


$ python 

>>> import tensorflow as tf 

>>> hello = tf.constant ('Hello, TensorFlow!') 
>>> sess = tf.Session() 

>>> print (sess.run (hello) ) 

Hello, TensorFlow! 

>>> a = tf.constant (10) 

>>> b = tf.constant (32) 

>>> print (sess.run(a + b)) 


当 没 有 报错 ， 且 界面 出 现 “Hello, TensorFlow! ”字样 时 ， 说 明 安 装 成 功 。 


3.6 小结 
TensorFlow 说 到 底 还 是 一 系列 的 工具 。 对 于 一 个 工程 技术 人 员 或 实际 深度 学 习 问 题 的 
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研究 员 来 说 ， 了 解 TensorFlow 的 基本 原理 和 使 用 方法 就 够 了 。 我 们 的 精力 应 该 更 多 地 放 在 
用 模型 解决 实际 问题 这 一 方面 。 

对 TensorFlow 本 身 的 架构 ， 我 想 作 为 业余 研究 或 者 学 术 研 究 是 可 以 的 ， 而 作为 商业 性 
的 研究 ， 其 投入 产 出 比 可 能 会 低 到 你 自己 受 不 了 的 地 步 。 尤 其 是 不 建议 大 家 去 修改 里 面 的 
代码 来 尝试 做 “改进 ”。 因 为 如 果 你 的 代码 在 提交 到 Github 上 之 后 没有 人 愿意 同 你 合并 ， 
那么 就 意味 着 这 个 Branch 还 是 要 你 自己 维护 到 死 。 

有 关 TensorFlow 原理 性 的 东西 不 用 了 解 得 太 深 ， 就 像 你 学 用 Java 未 必 一 定 要 把 
Eclipsee 的 代码 和 实现 原理 学 懂 一 样 。TensorFlow 上 手 非常 容易 ， 后 面 我 们 会 给 多 个 例子 
来 教 大 家 怎么 使 用 TensorFlow 搭建 一 个 完整 的 网 络 并 训练 出 满意 的 结果 。 


Ө Java 环境 的 一 种 IDE Т.А. 
ww ai bit. com П0 00000 
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从 这 一 章 我 们 开始 接触 最 简单 最 朴素 的 神经 网 络 ， 叫 做 前 馈 神 经 网 络 (feedforward 
neural network)。 在 这 种 神经 网 络 中 ， 各 神经 元 从 输入 层 开始 ， 接 收 前 一 级 输入 ， 并 输入 
到 下 一 级 ， 直 至 输出 层 。 整 个 网 络 中 无 反馈 ， 可 用 一 个 有 向 无 环 图 directed acyclic graph， 
DAG) 表示 。 

通常 我 们 说 的 前 馈 神经 网 络 有 两 种 : 一 种 叫 Back Propagation Networks 一 一 反 向 传播 网 
络 (以 下 简称 BP 网 络 )， 一 种 叫 RBF Network—‘% [5] JE BR BCH ZR, Propagation fff] & 
义 是 传播 ， 所 以 也 叫 作 反 向 传播 神经 网 络 。 从 名 字 上 可 能 看 不 太 明白 它 是 怎么 工作 的 ， 没 
关系 ， 只 要 耐心 看 下 去 很 快 你 就 知道 了 ， 这 个 过 程 并 不 复杂 。 在 深度 神经 网 络 的 学 习 过 程 
中 你 会 听 到 很 多 新 名 词 ， 但 是 不 要 慌 惧 ， 没 有 任何 一 个 新 名 词 是 高 深 到 无 法 掌握 的 概念 ， 
只 要 理解 了 它 的 意义 就 会 觉得 一 切 关 系 都 是 顺 其 自然 的 。 

大 家 请 注意 ， 这 一 章 的 内 容 虽 然 不 算 难 ， 但 是 非常 重要 ， 因 为 几乎 所 有 在 深度 学 习 中 
涉及 的 最 为 关键 性 的 问题 在 这 一 章 几 乎 都 涵盖 了 。 我 们 以 最 简单 的 BP 网 络 为 例 ， 看 看 最 简 
单 的 神经 网 络 是 怎么 设计 和 工作 的 ， 我 们 先 来 看 看 它 的 结构 。 





41 网 络 结构 
BP 网 络 是 所 有 的 神经 网 络 中 结构 最 为 单纯 的 一 种 。 
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输入 层 隐藏 层 输出 层 ”输入 层 隐藏 层 1 ”隐藏 层 2 输出 层 


一 般 习惯 上 我 们 喜欢 把 网 络 画 成 “左边 输入 ， 右 边 输出 ”的 结构 ， 一 个 向 量 从 左边 进 
入 ， 经 过 网 络 的 运算 从 右边 产生 一 个 输出 结果 。 就 像 上 面 这 样 ， 当 然 前 馈 神 经 网 络 的 结构 
不 是 一 种 固定 的 ， 上 面 这 两 个 图 只 是 随意 列 出 来 了 两 种 。 

第 一 个 神经 网 络 有 2 层 ， 每 层 4 个 节点 。 第 二 个 神经 网 络 和 它 相 比 也 是 大 同 小 异 ， 区 
别 是 层 数 不 同 ， 多 了 一 个 隐藏 层 ; 另外 ， 每 一 层 的 神经 元 数量 也 不 同 ast, 一 层 3 
个 ， 而 且 最 后 的 输出 层 只 有 一 个 神经 元 。 这 些 都 是 与 第 一 个 神经 网 络 的 不 同 之 处 ， 但 它们 
也 都 是 前 馈 神 经 网 络 。 你 别 看 节点 数目 不 一 样 而 且 不 对 称 一 一 反正 没 人 规定 过 这 种 网 络 必 
须 对 称 。 这 些 并 不 是 “问题 "， 神 经 网 络 本 身 就 有 很 多 种 设计 模式 ， 并 且 会 在 不 同 的 模式 下 
产生 不 同 的 训练 效果 和 运用 特点 。 

神经 网 络 有 一 个 不 太 好 理解 的 地 方 就 是 它 的 组 成 结构 太 复 杂 ,，“ 元 件 ” 太 多 一 一 一 层 一 
层 的 神经 元 ， 会 使 得 模型 看 上 去 很 不 直观 。 那 好 ， 我 们 就 创造 一 个 最 简单 的 BP 网 络 结构 
吧 。 把 这 一 个 网 络 研究 明白 了 ， 再 复杂 的 网 络 也 就 不 在 话 下 了 。 


输入 层 隐藏 层 输出 层 
i h о 
就 2 层 ， 我们 说 过 输入 层 不 算 ， 隐 藏 层 算 1 层 ， 输 出 层 算 1 层 , 一共 2 层 。 
x 我们 也 让 它 最 简单 化 ， 就 一 个 维度 一 一 一 个 实数 。 
ARR h 和 输出 层 。 这 两 层 都 是 2=wr+b 和 f(z)= 一 的 组 合 。 那 么 这 个 “网 络 " (应 


e^ 


该 叫 “ 线 ”更 恰当 ) —НФ АТ x 和 ?之 后 ， 它 就 可 以 开始 训练 过 程 了 。 





4.2 ”线性 回归 的 训练 
BP 神经 网 络 的 训练 其 实 跟 我 们 以 前 接触 过 的 基于 统计 的 机 器 学 习 模型 很 相近 ， 如 果 熟 
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悉 线性 回归 的 朋友 那 就 会 觉得 这 个 过 程 非常 简单 了 。 如 果 你 不 熟悉 也 没关系 ， 我 们 就 先 用 
线性 回归 的 训练 作为 例子 看 一 下 这 是 一 个 什么 过 程 ， 看 完了 就 知道 确实 很 简单 。 

“机 器 学 习 ” 顾 名 思 义 就 是 机 器 通过 对 观测 到 的 事物 进行 归纳 ， 进 而 总 结 出 它们 之 间 的 
规律 、 关 系 一 类 。 在 整个 训练 的 过 程 中 ， 我 们 倒 要 看 看 一 个 线性 回归 的 模型 究竟 学 到 了 些 
什么 怎么 学 到 的 。 作 为 铺垫 ， 线 性 回归 的 训练 过 程 如 果 能 够 看 明白 ， 那么 下 面 再 看 这 个 
两 层 的 神经 网 络 也 会 非常 清晰 简单 。 


1. 样本 

一 维 线性 回归 可 以 说 是 所 有 机 器 学 习 中 最 简单 的 一 种 了 ， 大 概 是 这 么 个 感觉 。 

首先 ， 我 们 会 在 一 些 场景 下 观察 到 很 多 很 多 的 数据 对 (pair)， 它 们 一 起 出 现 。 例 如 ， 在 
一 次 实验 中 我 们 发 现 一 一 个 个 证 在 一 个 推力 的 作用 下 做 加 速 运动 。 用 手中 的 秒表 和 一 个 速度 
表 ， 我 们 可 以 得 到 一 些 读数 。 


速度 (m/s) 





虽然 我 知道 绝 大 部 分 的 教学 环境 里 不 会 预备 速度 表 这 种 高 科技 的 玩意 儿 ， 有 个 米 尺 测 
距离 有 个 秒表 测 时 间 倒 确实 可 能 。 这 事情 我 们 就 不 细 究 了 ， 为 了 说 明 简便 一 些 ， 我 们 就 用 
这 种 方式 来 假设 吧 。OK ， 那 这 样 的 话 我 们 就 可 以 得 到 类 似 上 表 里 这 种 观测 记录 。 


时 间 与 速度 





通过 画图 观察 ， 我 们 发 现 横 坐标 代表 的 时 间 Cs) 和 纵 坐 标 代 表 的 速度 (тв) 有 一 种 对 
应 的 关系 ， 看 上 去 像 是 线性 关系 一 一 这 个 过 程 是 在 观察 中 进行 的 归纳 和 假设 ， 至 少 看 上 去 
这 两 个 数据 确实 给 人 这 样 的 感觉 。 
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我 们 尝试 着 画 一 条 线 从 这 一 堆 点 中 穿 过 去 ， 会 发 现 这 条 线 基 本 上 是 可 以 满足 通过 或 接 
近 所 有 的 点 的 。 那 么 这 条 直线 就 是 这 些 点 的 横 纵 坐标 的 关系 描述 一 一 用 (x, у) 表示 也 可 以 ， 
用 (t, s) 表示 也 可 以 。 从 数据 科学 的 角度 来 看 就 是 要 解决 数据 的 量化 和 关系 ， 而 它们 之 间 的 
量化 表达 式 就 是 

y=wxtb 

这 就 是 它们 之 间 的 关系 。 

现在 的 问题 就 变 成 了 ， 我 们 通过 一 种 方式 把 待定 的 系数 w 和 4b 求 出 来 就 算 OK 了 。 用 
什么 原则 来 确定 w A b AKANE? 毕竟 计算 机 是 不 会 像 人 这 样 去 描 点 作 图 的 ， 它 只 会 做 加 
减 乘 除 和 比 大 小 ， 甚 至 乘除 也 是 用 加 减 来 做 的 ， 减 也 是 用 加 来 做 的 。 怎 么 办 呢 ? 其 实 方法 
也 是 有 的 ， 我 们 先 来 看 看 一 种 叫 “ 牛 顿 法 ”的 东西 。 

2. 牛顿 法 

牛顿 法 从 名 字 来 看 有 点 不 知 所 云 ， 不 过 说 白 了 这 是 一 种 通过 迭代 法 来 解 方程 的 思路 。 
虽然 在 神经 网 络 和 线性 回归 的 训练 中 这 个 方法 没 办 法 直接 使 用 ， 但 是 对 于 我 们 开阔 思路 还 
是 大 有 好 处 的 。 

迭代 法 的 核心 思路 就 是 用 步 步 和 逼 近 的 方式 来 接近 理论 上 的 精确 值 ， 只 要 发 现 当前 的 试 
探 值 已 经 收敛 到 一 个 满足 场景 要 求 的 误差 精度 就 可 以 判断 迭代 结束 ， 用 这 个 试探 值 来 充当 
求解 的 目标 值 。 这 种 方法 可 以 使 很 多 “直接 法 ”9 无 法 求解 的 问题 得 到 一 个 足够 精确 的 近 
似 解 。 例 如 ， 我 们 都 知道 一 元 二 次 方程 y=ax*+bx+c 通过 配方 和 移 项 可 以 得 到 它 的 求 根 公 
式 为 

разби, вив y= ==” 

这 种 得 到 的 以 待定 系数 的 函数 作为 表达 式 的 解 就 是 我 们 说 的 解析 解 。 


Ө 直接 通过 移 项 、 配 方 等 方法 解 方程 得 到 解析 解 的 方式 与 思路 ， 直 接 会 得 出 方程 的 解析 解 。 
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迭代 法 与 此 不 同 ， 是 通过 多 次 “试探 性 ”的 计算 并 比 对 与 这 个 真实 值 之 间 的 差距 是 否 
缩小 来 得 到 解 。 这 种 以 有 限 成 本 的 “次 优 ” 取 代 无 限 成 本 的 “最 优 ” 的 哲学 思想 是 每 一 个 
工程 人 员 都 可 以 借鉴 的 思维 方式 。 迭 代 法 中 有 一 个 经 典 的 方法 ， 就 是 我 们 现在 要 说 的 牛顿 
迭代 法 (Newton's method)， 或 称 牛 顿 法 ， 它 是 牛顿 在 18 世纪 提出 的 一 种 在 实数 域 和 复数 
域 上 近似 求解 方程 的 方法 。 

例如 有 一 个 一 元 方程 : 

Дх)=0 

МЕ Дх) 具体 的 表达 式 是 什么 ， 或 复杂 或 简单 ， 假 设 Дх)=0 真 的 有 解 ， 而 > 是 满足 
Дх)=0 的 解 ， 我 们 怎么 找到 这 个 + 呢 。 要 知道 Ax) 的 表达 式 可 能 真 的 千奇百怪 ， 还 真 不 见 
得 能 通过 人 的 手 算 、 移 项 、 配 方 …… 各 种 方法 快速 得 到 解 。 那 就 不 妨 用 咱 刚 刚 说 的 这 种 迭 
代 法 的 思路 。 

设置 一 个 初始 值 x*%， 代 入 函数 y=ftx)， 则 平面 直角 坐标 系 上 会 有 点 

(Xo, Axo)) 
这 个 点 落 在 曲线 y=ftx) Eo 
过 点 (хо, f(x) у= Дх) 的 切线 Lo, Lo 的 方程 就 应 该 是 : 
y f(x) +f "(xo)(x—xo) 
其 中 万 on 就 是 了 (x) 的 一 阶 导数 。 

所 谓 导 数 ， 标 准 名 称 叫 做 导 函 数 (derived function)， 这 是 高 等 数学 中 一 个 很 基础 而 且 
很 重要 的 概念 。 导 数 是 一 个 函数 而 不 是 一 个 数字 ， 以 刚才 的 函数 ftx) 为 例 ， 贴 着 这 个 函数 
的 曲线 去 做 切线 ， 在 曲线 上 每 一 点 所 做 的 切线 的 斜率 就 是 导 函 数 在 这 一 点 的 值 ， 导 函数 用 
Го) 来 表示 。 
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以 ?= 已 为 例 ， 对 图 形 上 的 每 个 点 都 做 切线 ， 都 取 切 线 斜率 的 话 会 得 到 一 系列 的 x ЖИ 
率 值 ， 这 新 的 对 应 关系 x 和 斜率 值 》 就 是 我 们 刚刚 说 的 .PCx) 函数 了 。 这 同样 是 一 个 函数 ， 
而 输出 值 y 的 意义 则 表示 原 函 数 Дх) 的 斜率 。 有 经 验 的 朋友 可 能 一 下 子 就 可 以 看 出 答案 ， 
y= 区 这 个 函数 的 导 函 数 是 y=2x。 

回来 看 刚刚 说 过 的 方程 y=flxo)+f Gu) (хх), 
如 果 你 看 不 明白 这 个 表达 式 是 怎么 出 来 的 ， 那 就 做 
个 代 换 ， 以 我 们 最 容易 接受 的 y= 九 +b 的 斜率 与 
PPE AS TT OKRA, BB (xo) RE ko у= fo) f (xo) 
(x—x,) BEAT WW у=Кх+(Д{х,)—Кх), APEX 
看 截 距 就 是 ftx0) 一 kxo。 

如 果 没 问题 的 话 ， 就 继续 耐心 点 往 下 看 唆 ， 这 
样 就 可 以 求 出 直线 Lo 与 瑟 轴 的 交点 的 横 坐 标 
fO) 

Р(х) 
得 到 的 x 为 7 的 一 次 近似 点 。 

JA fci BECA 75 ii C il AR y — foo) 上 以 相同 方式 过 点 (х, Ax) Ж у=Дх) 的 切线 L,, 1939] 

L, 5j ХЭНЗ pa BLA p 


y=kx+b 






(Xo Йо) 


Аха) 


х= ху 





x, =x, | f(x) 
f(x) 
得 到 的 x 为 7 的 二 次 近似 点 。 
以 此 种 方式 进行 迭代 ， 通 项 表达 式 即 为 : 
х„ = Xn X f 0,4) 
PG) 


就 称 为 的 n 次 近似 点 的 值 ， 这 个 公式 就 是 牛顿 迭代 公式 。 整 个 迭代 的 收敛 过 程 就 
像 下 图 这 样 ， 通 过 半 次 的 逼近 最 后 得 到 的 近似 值 。 


y 
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公式 是 可 以 推广 到 高 维 去 使 用 的 ， 比 如 二 维 、 三 维 且 各 维度 可 导 情 况 。 不 管 导数 多 么 复杂 ， 
这 种 方法 都 是 通用 的 。 怎 么 样 ， 用 计算 机 求 方程 的 根 是 不 是 也 很 容易 了 ? 

3. 导数 

既然 说 到 导数 这 种 东西 我 们 就 做 个 补充 说 明 。 这 东西 看 上 去 确实 让 人 感觉 非常 陌生 ， 
至 少 在 日 常生 活 中 没有 人 会 用 这 么 一 个 数学 文言 词 来 交流 ， 但 是 这 种 东西 却 是 我 们 经 常 使 
用 的 ,不信 来 看 。 我 们 平时 说 的 速度 一 一 汽车 的 速度 表 上 写 着 40km/h， 就 是 一 个 导数 的 概 
念 哦 ， 我 们 来 看 看 是 怎么 说 的 。 





我 们 在 初中 物理 课 上 早 就 已 经 学 过 这 样 的 公式 : 
5= ү 

其 中 * 是 位 移 ，v 是 速度 ，! 是 时 间 。 这 个 公式 的 概念 是 说 我 们 按照 速度 v 前进， 例如 一 辆 
汽车 每 秒 钟 前 进 5 米 ， 当 我 行进 了 时 间 ! 之 后 ， 例 如 10 秒 钟 ， 这 时 候 我 们 会 得 到 一 个 位 移 
距离 的 大 小 ， 就 是 s。 在 刚刚 这 个 例子 中 我 们 很 容易 就 能 得 出 ，s=5 x 10=50 米 。 没 错 吧 ? 

但 是 ， 我 们 可 别 忘 了 ， 在 这 个 公式 中 ,s 是 可 以 通过 尺子 量 出 来 的 ,1 是 可 以 用 秒表 
量 出 来 的 ， 这 两 种 数据 是 非常 容易 得 到 的 ， 但 是 你 在 初中 课堂 上 见 过 用 什么 直接 去 量 速度 
y Iu 9? 

而 恰恰 相反 ， 我 们 通常 是 使 用 v= 来 进行 速度 v 的 描述 ， 用 一 段 测量 时 间 的 和 其 对 
应 的 位 移 s 来 定义 其 平均 速度 v， 只 要 这 个 1 不 是 0， 刚 刚 的 这 个 公式 就 有 意义 

对 于 我 们 最 为 熟悉 的 匀速 直线 运动 来 说 , v 在 整个 测量 的 过 程 中 表现 得 非常 理想 一 一 
它 不 会 变化 ， 任 意 时 刻 v 都 是 一 个 定 值 ， 所 以 sm vi 肯定 是 不 会 有 什么 问题 的 。 然 而 ， 如 果 
在 移动 的 过 程 中 速度 v 是 变化 的 ， 时 快 时 慢 ， 那 在 知道 1 的 情况 下 s 怎么 求 ?还 能 按照 刚 
Bl s=vt 直接 乘积 求解 吗 ? 显然 不 能 。 那 我 们 怎么 做 才 更 为 科学 合理 呢 ? 先 别 着 急 ， 我 们 往 
下 看 。 

我 们 知道 速度 v 的 定义 本 身 就 是 指 在 一 个 瞬时 状态 下 或 者 一 段 时 间 内 的 位 移 s 与 这 段 
时 间 + 的 比值 ， 我 们 用 更 容易 认 知 到 的 且 稳 定 的 s 和 + 定义 了 vo v = 了 在 匀速 运动 的 状态 下 
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也 不 会 看 出 有 任何 不 妥 的 地 方 ， 只 是 我 们 刚才 突然 想到 ， 如 果 v 不 是 匀速 运动 ， 而 是 在 做 
变速 的 运动 ， 反 正 最 后 运动 时 间 确实 为 !， 总 位 移 也 确实 为 s， 这 种 情况 下 ，v = 中 求 出 的 
v 就 是 一 个 平均 值 了 ， 而 不 是 一 个 我 们 能 够 较 好 地 、 客 观 地 描述 真实 的 瞬时 v 的 值 了 一 一 
因为 它 每 一 刻 可 能 都 不 一 样 ， 不 是 一 个 定 值 。 这 个 时 候 我 们 可 以 很 自然 地 萌生 出 一 个 想法 ， 
那 就 是 ， 能 不 能 试 着 用 瞬时 状态 的 位 移 s 和 瞬时 状态 的 时 间 1 来 求 出 瞬时 状态 的 一 一 也 就 
是 那 一 瞬间 的 速度 大 小 。 其 实 是 可 以 的 ， 这 种 定义 其 实 就 是 我 们 用 到 的 导数 的 定义 。 
那 我 们 怎么 来 考虑 某 一 刻 的 v 呢 ?从 原始 的 定义 来 看 ， 
51 —So * 
也 就 是 说 ， 在 这 一 时 刻 ， 我 们 试 着 把 这 一 刻 的 先 记 下 来 ,并 在 同时 记录 位 移 so 的 位 
置 。 然 后 在 短 短片 刻 之 后 (想象 一 下 吧 ， 要 多 短 有 多 短 ， 反 正 越 短 越 好 只 要 不 是 0)， 我 们 


4E i, 时 刻 记 录 下 这 一 刻 的 时 间 ， 并 同时 记录 下 %。 如 果 我 们 能 够 求 得 此 时 刻 的 二 ， 其 实 


t, —t 
就 是 求 得 了 此 刻 的 v。 你 不 用 担心 因为 时 间 间 隔 太 短 会 求 出 错误 的 值 ， 比 如 求 出 一 个 0 速度 
来 ， 不 会 的 ， 因 为 s,-so 在 减 小 的 同时 -bh 也 在 减 小 ， 这 个 比值 会 趋 于 一 个 实数 的 。 

我 们 想 想 看 ， 这 种 情况 是 不 是 当 我 手 里 有 一 个 带 有 精确 时 间 刻 度 的 录像 机 就 能 轻松 实 
MT? 如 果 连 每 秒 数 百 米 速度 的 子弹 都 能 捕 提 得 这 么 清楚 的 话 ， 记 录 汽 车 的 速度 当然 不 在 
话 下 。 








我 们 可 以 轻松 得 到 一 个 s=s(n) 的 表达 式 ， 像 图 上 所 示 这 种 可 以 精确 到 0.001 秒 的 录像 
机 在 任何 一 个 0.001 分 度 的 时 刻 都 能 记录 下 那 一 瞬间 的 时 间 和 对 应 的 位 移 了 。 然 后 怎么 玩 ? 
假设 我 们 一 共 录 制 了 10 秒 的 内 容 ， 那 就 从 0 秒 开 始 到 10 秒 把 录像 中 位 移 位 置 的 读数 一 个 
一 个 画 在 EXCEL 里 呐 。 至 于 录像 机 的 时 间 分 度 是 不 是 够 小 ， 区 别 如 何 ， 我们 看 看 下 面 这 几 
个 图 就 能 感觉 出 来 了 。 对 于 一 个 加 速度 a=6m/s? 的 匀 加 速 运动 的 物体 来 说 ， 你 会 得 到 以 下 
的 图 和 对 应 的 1 秒 以 内 的 各 种 参数 值 。 


Ө Bil 1000fps 的 高 速 摄像 机 。 
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m/s + 
5m/s + 
4m/s + 
3m/s + 
2m/s + 
lm/s 中 
Om/s 
05 0.15 0.25 0.35 0.45 0.5s 0.6s 0.75 0.8s 0.95 1.0s 


6m/s + 
Sm/s + 
4m/s 9 
3m/s + 
2m/s + 
lm/s + 
Om/s 
05 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95 1.05 


a (mie) 5 





Reyes ол [ 05 | 


oe 
5,75, BRI tito 也 就 越 不 精确 ， 平 均 的 意义 越 大 ， 瞬 时 的 意义 越 小 。 是 不 是 ?当然 你 可 以 再 
分 ， 越 分 越 平缓 ， 越 分 越 光滑 ， 极 限 就 是 一 条 直线 ， 只 不 过 这 条 直线 是 一 条 斜率 为 6 的 直 
线 而 不 再 是 最 开始 我 们 画 出 来 的 斜率 为 0 的 直线 。 
在 用 高 速 摄像 机 录像 所 得 到 的 *=s(1) 这 个 函数 中 ， 速 度 的 瞬时 值 为 ， 
‚_5()—5(%,) 
Аси 
这 里 又 出 现 一 个 表达 式 lim， 读 作 limit ( 纯 英 文 读 法 )， 含 义 就 是 “极限 ”。 这 个 表示 在 某 一 
瞬间 o (不 管 是 1.035s， 还 是 5.722s 之 类 的 某 一 个 具体 值 )。 我 们 看 这 个 公式 非常 眼熟 ， 这 
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不 就 是 函数 极限 的 公式 么 ? 没 错 ， 回 答 正 确 。 那 下 面 精确 与 否 几乎 只 取决 于 我 用 的 高 速 摄 
像 机 的 时 间 分 度 (精度 ) 了 ， 因 为 从 观测 者 的 角度 来 看 ， 在 这 个 公式 里 ，t 只 能 取 比 大 的 
最 小 的 一 个 观测 值 ， 那 也 就 是 说 ， 精 度 是 0.1s 的 摄像 机 ， 那 гг, 最 小 也 只 能 求 到 0.15 的 瞬 
时 (平均 ) 速度 ; 精度 是 0.01s 的 摄像 机 ，t-t 最 小 只 能 求 到 0.01s 的 瞬时 (平均) 速度 …… 
这 个 表达 式 会 不 会 让 你 们 误解 im 是 摄像 机 购买 时 应 该 趋 近 于 高 端 机 的 过 程 ”好 吧 ， 我 为 给 
你 们 带 来 的 误导 表示 火 意 。 我 只 是 想 在 这 里 让 大 家 明确 一 个 概念 ， 那 就 是 通过 s) 求解 瞬 
时 速度 的 思路 ， 大 家 明白 了 吗 ? 

如 果 还 不 是 很 清晰 的 话 ， 那 我 们 就 来 看 一 个 例子 ， 很 快 就 会 更 为 明确 。 

如 果 有 一 个 非 匀速 运动 的 物体 ， 它 的 运动 位 移 公 式 可 以 表示 为 

s(t)=2° +4 
你 可 以 认为 就 是 通过 录像 机 观察 出 来 ， 最 后 用 回归 等 方法 归纳 为 这 个 公式 的 。 那 在 t= 55 时 
的 瞬时 速度 是 多 大 呢 ? 那 我 们 就 求 一 下 极限 试 试 呐 : 
(2(t- AY. +4) – (2 +4) 
(t+A)-t 

分 子 项 有 前 后 两 个 部 分 ， 前 面 的 部 分 表示 的 是 位 移 在 上 时刻 加 上 一 个 A 时 刻 的 总 位 移 量 ， 
这 个 A 读 作 Delta， 表 示 一 个 极 小 的 偏 移 值 。 后 面 的 部 分 表示 的 是 在 上 时 刻 的 位 移 量 ， 两 者 
的 差 表 示 任 意 1 时 刻 后 经 过 A 这 段 时 间 的 位 移 ， 也 就 是 A 时 间 的 位 移 ， 而 分 母 项 A 实际 就 


是 1+A 与 1 的 差 值 ， 这 可 以 根据 M6)=lim O02 的 定义 得 到 。 我 们 化 简 一 下 看 : 


v= lim 


. 2) +4А +242 4-260 –4 
е е = 
再 化 简 一 下 : 
MA 
lim 一 一 一 一 一 
Аэ? А 
, lim 41+2A 
这 么 一 来 就 利索 多 了 ， 一 下 子 化 简 成 了 我 们 前 面 说 的 函数 极限 问题 ， 当 A 趋 于 0 的 时 候 ， 
2A 也 是 趋 于 0 的， 其 实 表达 式 lim4t+2A иктат, 速度 变 成 了 只 与 时 间 成 正比 
的 一 个 表达 式 。 我 们 刚刚 想 求 的 是 t= 55 的 时 候 的 瞬时 速度 ， 代 入 ， 那 就 是 20m/s 了 。 人 怎么 
样 ， 是 不 是 超级 简单 ? 
我 们 刚刚 求 的 这 个 过 程 ， 你 别 小 看 ， 可 厉害 了 ， 因 为 我 们 可 不 光 求 出 了 第 55 的 瞬时 束 
度 ， 而 是 任意 时 刻 的 速度 我 们 代入 都 能 求 出 来 。 而 刚刚 这 个 : 
v(t) = Him 07 800 
iy, 2—0 


也 能 写作 : 


wwaibbt.com 80 000060 


60 +» 原理 与 实践 篇 


v(t) = lim (t * 97 s(r) 
Ast A 


_ ds 
ii А 


表示 用 s 对 1 求 导数 。 这 里 的 ds 和 di 其实 指 的 就 是 As ЖП Ar, 于 同样 可 以 记 作 s'(0) RH s, 
意 为 导数 。 

刚才 这 个 讲解 是 关于 导数 怎么 求 的 推导 过 程 ， 如 果 听 起 来 乏味 或 者 觉得 没 必要 记 的 话 ， 
那 就 只 需要 记 住 “ 一 个 函数 的 导数 值 就 是 指 函数 曲线 上 各 自 变量 对 应 点 的 斜率 ”就 可 以 了 _ 


4. 导数 补充 
既然 讲解 了 导数 的 含义 和 推导 过 程 ， 那 在 这 里 我 们 需要 做 一 个 补充 ， 就 是 关于 多 个 函 
数组 合 形成 的 新 函数 导数 应 该 怎么 求 的 问题 。 
通常 我 们 还 会 遇 到 函数 的 其 他 一 些 形式 或 者 变种 ， 比 如 ， 
у=р(х)/(х) 
这 种 我 们 权 且 叫 “ 连 乘 型 ”。 
还 有 一 种 : 
y=g(/(x)) 
这 种 我 们 可 以 叫 “ 艇 套 型 。 
基本 上 这 两 种 方式 的 组 合 可 以 用 来 表示 绝 大 多 数 复杂 函数 的 结合 过 程 ， 同 样 ， 如 果 我 
们 了 解 了 这 两 种 函数 求 导 的 过 程 也 就 了 解 了 绝 大 多 数 复杂 函数 的 导数 应 该 怎么 来 求 了 。 我 
们 先 来 说 “ 连 乘 型 ”的 过 程 。 


根据 导数 的 定义 ， 我 们 最 终 是 要 求 宇 ， 那 么 我 们 就 根据 定义 来 用 标准 的 数学 极限 的 推 
导 方法 试 求 一 下 : 
dy _ dgw] 
dx dx 


= tim SEAS +A -gae 
А-0 А 


- lim EC * ASO + A) - а(х) /() - а(х) (х + ADA + B(x) f c ADA 
A+0 A 





= Hing EC £O p + (LOS), 


= lim 
A>0 


= я'(х)/(х)+ (х) f(x) 
“ 连 乘 型 ”的 Ге) = Ох) + а(х) (х), 1g ff FUE 


EREE fee a) + рв) EASO 
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如 果 看 着 这 推导 觉得 头晕 眼花 也 没关系 ， 听 一 下 白话 的 解释 。 对 于 这 种 “ 连 乘 型 ”的 
函数 组 合 ， 新 函数 的 斜率 相当 于 两 部 分 线性 亚 加 (加 和 )， 一 部 分 是 ftx) 与 g(x) 的 斜率 相 乘 ， 
一 部 分 是 g(x) 43 Дх) 的 斜率 相 乘 。 

FUN “REAL” AOR EZ fille у= (До), RIER [BA's 为 了 降低 难度 ， 
我 们 设 Дх) =2, 

KRE, LE y= а(х) 就 被 代 换 成 了 

y-gG) 
z=fix) 
这 样 两 个 等 式 了 。 如 果 y=gVtx)) 在 x 上 存在 导数 ， 那 么 : 


lim 他 - gGz) ， 这 个 z 是 我 们 刚刚 请 来 帮忙 的 ， 把 它 看 成 一 个 独立 的 变量 就 可 以 了 。 


Aeg Gea ， 这 个 a 是 一 个 无 穷 小 的 数 ， 可 以 认为 极为 接近 0。 两 边 同 时 乘 以 Az, 


可 以 得 到 : 
Ay=g'(z)Az+ aAz 
在 等 式 两 边 同 时 除 以 Ax， 会 得 到 : 
Ay Az 


-g(z) +a 
Ах les 


由 于 limx=0 ， 所 以 化 简 得 : 

lim = gofa) 

也 就 是 说 ,y=g(fx)) EORR “ЖШ” OR SILI eit, MERR 
换 后 一 层 一 层 求 导 的 导数 相 乘 。 那 推广 下 ， 下 面 这 个 也 就 成 立 了 ， 

luer] = козе шуу (ае СРО) 

这 个 形式 看 着 虽然 乱 ， 但 是 仍然 非常 好 理解 。 如 果 一 个 函数 在 一 点 Дх) 的 变化 率 为 3 
倍 ， 而 在 同一 点 g(x) 的 变化 率 为 5 倍 ， 那 么 当 它们 嵌 套 在 一 起 ， 等 于 同时 做 了 两 个 变化 率 
WEIL ——15 倍 。 原 理 嘛 …… 想 想 《 盗 梦 空 间 》 就 好 了 。 如 果 这 个 推导 过 程 看 着 太 烧 脑 ， 
那 就 别 细 究 了 ， 直 接 记 住 结论 就 好 了 ， 我 们 后 面 在 编程 的 时 候 反 正 也 没有 直接 这 么 使 用 的 。 


5. 不 可 导 

导数 要 补充 的 是 最 后 一 个 定义 一 “不 可 导 。 不 是 所 有 函数 都 有 导数 存在 ， 至 少 有 -一些 
函数 是 在 一 些 定义 域 上 不 存在 导 函数 的 ， 这 种 情况 我 们 称 该 函数 在 某 点 上 不 可 导 。 我 们 来 
举 个 例子 看 看 吧 。 

例如 有 这 样 一 个 函数 : 





у= |х| 
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这 个 函数 的 图 像 很 好 理解 ，y 等 于 x 的 绝对 值 ， 那 么 这 就 是 一 个 “V” 字 形 的 图 像 。 
“abs(x)” 的 图 表 





根据 导 函 数 的 定义 ,函数 y=|x| 的 导数 就 是 函数 每 个 点 的 切 斜 斜率 。 这 个 函数 有 点 特 
殊 ， 在 x > 0 的 时 候 ， 导 数 就 是 1， 因 为 斜率 恒定 为 1， 这 没 哈 稀奇 的 ; 在 x 二 0 的 时 候 ， 
导数 就 是 -1， 因 为 斜率 恒定 为 -1， 这 也 是 一 目 了 然 ; 麻烦 出 现在 x=0 的 时 候 。 

ТЕ х=0 附近 ， 左 侧 的 斜率 是 -1， 而 右 侧 的 斜率 为 1， 你 说 这 种 情况 下 y=|x| 的 导数 
VO 究竟 是 算 -1 呢 还 是 算 1 呢 ? 

其 实 也 没 必要 纠结 ， 凡 是 这 种 左右 极限 不 一 样 的 情况 ， 在 数学 上 统统 被 定义 为 不 可 导 ， 
因为 左右 的 斜率 不 是 同时 趋 近 于 一 个 值 。 那 么 这 个 导数 yo 画 出 来 的 图 像 是 这 样 ， 





这 个 地 方 的 x=0 的 情况 是 没有 定义 的 ， 你 看 在 函数 图 像 上 也 被 抠 掉 了 。 我 们 称 y=|x| 
在 x=0 的 时 候 不 可 导 。 记 住 有 这 么 个 事情 就 行 了 一 一 并 不 是 所 有 的 函数 在 所 有 其 定义 域 上 
都 存在 导 函 数 。 

6. 开始 训练 

刚刚 插入 了 这 人 么 多 关于 导数 和 迭代 法 的 介绍 ， 其 实 主要 是 为 了 铺垫 这 一 节 的 内 容 。 

还 是 接着 这 里 来 讲 ， 我 们 想 要 求 得 


y=wx+b 
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中 的 w 和 bb， 我 们 有 众多 的 x 和 y， 比 如 就 是 刚才 说 的 10 个 。 刚 刚 我 们 说 的 速度 v 和 时 间 t 
的 关系 ， 在 这 里 写作 y 和 x 的 关系 。 假 设 在 拟 合 的 过 程 中 有 这 样 一 个 参数 e 代表 error, X 
示 误 差 的 含义 。 

y=wx+b+e 

当 我 取 定 任何 一 个 w 和 6b 的 时 候 ， 只 要 代 人 一 个 x 和 对 应 的 y 就 一 定 会 产生 一 个 e 来 

表示 这 个 误差 ,有 10 个 x 和 ?那么 就 有 10 个 e。 我 们 试 着 把 这 10 个 e 的 大 小 做 一 下 加 和 
来 表示 一 个 全 局 的 误差 总 量 ， 看 看 表达 式 是 什么 样子 。 

e, 7 y, — (wx, t b) 


这 里 的 下 标 i 表示 第 i 个 样本 ， 每 一 个 的 表达 式 都 应 该 是 这 样 。 加 和 则 变 成 了 : 
Ye = Ў -Qex, +В)), п=10 


也 就 是 表示 是 这 10 个 e 相 加 的 和 。 这 里 请 注意 ，e 表示 的 是 误差 ， 也 就 是 说 e。 是 正 数 
是 误差 ，e 是 负数 也 是 误差 ， 这 种 误差 我 们 称 为 残 差 一 一 就 理解 为 我 们 建 模 之 后 进行 拟 合 然 
后 残留 的 差距 就 可 以 了 。 既 然 e 本 身 是 正 是 负 都 应 该 算 作 残 差 ， 那 么 让 其 内 部 正 负 抵消 显 
然 不 合适 ， 这 种 情况 下 应 该 把 每 个 e 都 做 一 个 非 负 的 处 理 ， 或 者 取 绝 对 值 或 者 取 平方 ， 都 
能 达到 类 似 的 效果 。 我 们 在 这 里 就 取 平 方 看 看 会 有 什么 结果 。 残 差 


n 
Loss = Ye 
fl 


Loss = Уо, 一 (wx + b) 


Loss = У (xw? +b? + 2x wb —2y,b-2x,y,w+ у?) 





各 样本 产生 的 残 差 平 方 后 会 得 到 У, 里 面 的 这 一 个 多 项 式 ， 有 и Ж, D^ X. wh, wih, b 
项 ， 以 及 后 面 的 常数 项 刀 一 一 你 别 看 它 这 里 写 着 个 >， 它 可 是 我 们 在 实验 开始 的 时 候 获 得 的 
样本 标签 ， 一 个 已 知 数 。 在 也 加 和 完全 展开 后 ，w” Hi. b X. wbi, wii, b 项 和 常数 项 
都 会 各 自 提 取 公 因 式 合并 ， 变 成 这 种 形式 : 
Loss=Aw + Bb’ + Cwh+Dw+Eb+F 

其 中 的 4、8、C、D、E、F 全 部 都 是 常数 系数 。 

好 了 ， 现 在 我 们 得 到 一 个 全 局 性 的 误差 函数 ， 其 中 的 未 知 数 是 w 和 4b。 现 在 要 做 一 件 
事 ， 那 就 是 找到 一 个 比较 好 的 w 和 一 个 比较 好 的 bp， 使 得 整个 Loss 尽 可 能 小 ， 越 接近 0 越 
好 ， 说 明 拟 合 的 误差 越 小 。 用 白话 说 也 就 是 画 一 条 线 从 众多 的 点 中 穿 过 去 ， 让 它 尽 可 能 距 
离 这 些 样 本 点 比较 近 ， 看 上 去 靠 谱 一 些 。 虽 然 我 们 不 知道 这 些 值 具体 是 什么 但 是 可 以 先 画 
一 个 它 的 “近亲 ”一 一 函数 2=ftx, y= ey +ху+х+у+1 出 来 看 看 函数 在 三 维 空间 里 是 一 
个 什么 形状 : 
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“х^2+у^2+х*у+х+у+1” 0 Ж 
(eu 





nt aM t 
1 у | -100000 | 10.0000 


z 02691 214796 


( 见 彩 插 ) 


整个 图 形 在 хуг 三 维 直 角 坐 标 系 中 看 上 去 像 一 个 “ 硫 ”。 看 到 这 个 图 形 我 们 顿时 心 就 放 
下 来 一 半 ， 这 就 和 平面 直角 坐标 系 中 的 抛物 线 一 样 ， 存 在 极 值 。 那 下 面 就 是 求 极 值 的 问题 
了 ， 也 就 是 求解 这 个 “ 确 底 ”的 坐标 (x, y)， 也 就 是 我 们 刚才 说 的 (w, b) 的 取 值 点 ， 这 里 的 
(x, y) RKF Qv, 5)， 符 号 字母 不 同 但 是 意义 相同 一 一 这 个 点 就 是 保证 整个 全 局 误差 Loss 
的 解 。 别 怕 ， 我 们 前 面 已 经 有 了 那么 多 准备 的 武器 ， 现 在 该 派 上 用 场 了 。 


7. 梯度 下 降 法 

前 面 我 们 已 经 说 过 用 迭代 法 一 一 牛顿 法 来 解 方 程 的 根 ， 这 种 方法 同样 适用 于 刚刚 的 线 
性 回归 的 学 习 过 程 。 虽 然 我 们 没 办 法 得 到 一 个 解析 解 来 找到 这 个 极 值 的 位 置 ， 但 通过 选 代 
不 断 学 习 ， 可 以 通 近 这 个 模型 设置 中 待定 系数 w 和 4b 的 最 佳 值 位 置 。 

首先 我 们 初始 化 一 个 w。 和 一 个 bh,， 随 便 是 什么 实数 都 可 以 ， 反正 带 进 到 


Loss = Уо, — (wx, +b)) 
m 


中 都 是 可 以 输出 某 一 个 Lossy 值 的 。 这 个 时 候 的 (wo bo, Loss) 就 会 出 现在 整个 “ 碗 壁 ”上 
的 某 个 位 置 ， 而 且 这 个 位 置 很 可 能 离 我 们 要 找到 的 碗 底 还 差 得 很 远 很 远 。 

我 们 的 前 人 也 都 知道 计算 机 是 个 不 靠 谱 的 玩意 儿 ， 自 己 是 没有 任何 解 题 思路 的 ， 还 是 
得 我 们 告诉 计算 机 怎么 来 找到 这 个 极 值 点 的 位 置 。 这 个 方法 现在 应 用 很 普遍 ， 例 如 梯度 
FREE (gradient descent) 就 是 其 中 一 种 ， 这 也 是 用 来 解决 凸 优化 问题 的 通用 方法 。 例 如 
y=x+2 这 种 函数 就 是 典型 的 一 元 凸 函数 ， 刚 才 说 的 这 个 :=Дх, y) =х 9 y xy exe y 1 则 
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是 二 元 凸 函数 ， 三 元 及 以 上 的 高 维 凸 函数 也 是 有 的 ， 只 是 没 办 法 画 出 图 像 而 已 。 





图 1-1 fx)=x+2 


这 种 函数 要 求 其 极 小 值 那 是 有 固定 套路 的 ， 我 们 可 以 用 一 种 “ 挪 挪 看 ”的 方法 来 找 。 
我 们 先 来 看 看 这 种 一 元 二 次 函数 的 极 值 是 怎么 找到 的 。 


8. 一 元 凸 函 数 

RW Дх) =х2+2 为 例 吧 ， 比 如 我 们 确实 不 知道 Ax)=x*+2 的 极 值 在 什么 位 置 ， 也 不 想 
用 解析 解 来 表达 ， 那 么 就 先 在 函数 曲线 上 随便 取 一 个 点 (хо, x+2)， 因 为 是 随意 取 的 点 所 以 
十 有 和 八 九 是 不 会 恰好 在 极 值 点 上 的 。 假 如 我 们 开始 取 的 是 (3, 11) 这 个 点 ， 这 个 点 显然 不 是 
我 们 要 求 的 极 值 点 。 不 过 没关系 ,在 取 了 这 个 点 之 后 ,我 让 计算 机 往 它 的 两 边 “ 看 "， 看 看 
哪 边 更 低 一 些 ， 比 如 x=2.8 和 x=3.2 这 两 个 点 。 这 两 个 值 分 别 对 应 的 点 就 是 

(2.8, 9.84) 和 (3.2, 12.24) ' 
这 两 个 点 相 比 很 容易 就 比 出 来 ，x=2.8 这 边 这 个 方向 要 更 低 一 些 ， 太 好 了 ， 往 这 边 挪 。 

下 次 就 是 比较 x=2.6 和 x=3.0 这 两 个 点 了 , 一 看 x=2.6 这 个 点 的 函数 值 更 低 ， 那 就 接 
着 挪 。 按 照 这 种 方式 就 可 以 在 十 几 次 以 后 挪 到 极 值 点 x=0 的 位 置 了 。 你 看 看 ， 我 们 不 用 传 
统 手 动 解 方程 的 方式 ， 还 是 有 办 法 用 循环 加 减 乘除 这 么 Low 的 办 法 解 极 值 问题 的 是 不 是 ? 

不 过 在 这 里 我 每 次 挪 0.2 是 给 大 家 做 个 示例 ， 真 实 的 情况 下 其 实 通常 是 不 确定 挪 多 少 合 
适 的 。 一 般 来 说 ， 我 们 是 特别 希望 这 种 情况 下 这 种 挪动 能 够 来 个 “ 自 适 应 ”， 该 多 挪 的 时 候 
多 挪 ， 该 少 挪 的 时 候 少 挪 ， 挪 到 位 了 就 别 挪 了 一 一 这 多 理想 。 

梯度 下 降 法 就 是 为 了 解决 这 种 问题 的 。 还 用 刚才 这 个 例子 来 说 ， 能 不 能 让 我 们 每 次 更 
新 不 要 都 是 0.2， 离 极 值 点 远 的 地 方 我 让 它 挪 得 快 一 些 ， 近 的 时 候 挪 得 慢 一 些 ， 挪 到 位 就 不 
动 了 。 这 个 方法 写 出 来 是 这 么 个 形式 : 

df (x) 
Хы = AE 

学 过 微 积分 的 读者 朋友 相信 对 这 样 的 公式 会 感觉 很 亲切 ， 没 学 过 的 朋友 也 别 着 急 ， 我 

用 白话 解释 一 下 它 的 含义 是 什么 。 
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这 表示 的 是 一 个 更 新 逻辑 过 程 ，xs 和 ,分 别 表示 两 个 临近 迭代 中 的 x 值 , x, 是 
更 新 后 的 下 一 次 迭代 的 值 ， 每 次 更 新 的 时 候 % л С 的 值 赋 给 i。 其 中 希腊 字母 读 
作 “ 伊 塔 "， 称 为 “学 习 率 "， 也 就 是 一 个 挪动 步 长 的 基数 ， 所 以 也 可 以 叫 “ 步 长 "， 设 得 大 
就 挪动 得 多 ， 设 得 小 就 挪动 得 少 ， 在 学 习 伊始 由 编程 序 的 人 给 赋 信 进去 就 OK Т. SO 是 


Дх) 的 导 函 数 或 称 导数 ， 也 可 以 记 作 f(x)， иии 
念 ， 刚 才 我 们 也 学 过 。 





这 就 像 棍 子 ， 可 能 会 有 一 个 方向 更 陡 一 些 





以 函数 .Ko)= 妆 +2 为 例 ，x=3 这 一 点 的 导数 大 小 就 是 (3, 11) 这 一 点 的 斜率 ， 在 函数 这 
一 点 做 切线 求 斜率 是 可 以 的 。 那 就 是 直接 把 /1x) 的 表达 式 求 出 来 ,f(x)=2x9， 然 后 把 x=3 
代入 到 f(x) 中 去 ， 可 以 得 到 一 样 的 结果 一 一 fx)=xY+2 中 (3, 11) 这 一 点 的 斜率 大 小 。 

这 一 点 的 导数 看 上 去 还 是 蛮 大 的 ,我 替 大 家 直接 求解 了 /(3)=6， 假 如 我 们 给 0.1 的 


i, 这 时 7 就 应 该 等 于 -0.6 T, HT.x,-3, ЯН x, 724. 


而 在 进行 下 一 次 迁 代 的 时 候 ， 即 六 =2.4 ИН, /0:4)- 48, ЖА -т LO = -0.48 ， 
更 新 后 x,, =1.92。 
大 家 都 能 看 出 来 ， 这 每 一 次 移动 的 步 长 是 在 逐步 减 小 ， 原 因 就 是 临近 整个 函数 圆 平平 


的 底部 的 时 候 斜 率 降低 ， 导 致 -7 Se 的 绝对 值 减 小 ， 更 新 的 时 候 改 变 的 量 也 就 相应 减 小 。 
这 个 更 新 原则 x = х, - nO 还 有 一 一 个 优势 不 知道 细心 的 读者 发 现 没有 ， 在 这 里 面 没有 往 
PARIE NAIN, ADENT, MEIA ONAM NERO 

C x23 的 时 候 ， 这 一 点 的 切线 的 斜率 是 个 正 数 ， = LO x 一 项 一 定 是 一 个 负数 ,更 
MUS х, 会 变 小 ， ЕВЕ, Win- BAKE. i 一 点 的 斜率 是 一 个 负数 ， 


Ө 在 高 等 数学 基础 中 有 一 些 常 用 函数 的 导 函 数 ， 可 以 直接 查 表 得 到 ， 不 用 严格 按照 定义 去 重新 求 。 
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її-7 ©) 这 一 项 一 定 是 一 个 正 数 ， 更 新 后 xy REK, 也 朝 着 底部 的 方向 前 进 。 这 两 点 者 


是 保证 这 种 算法 收敛 的 基本 因素 ， 而 这 种 底部 圆 平 乎 的 函数 其 实 就 是 凸 函 数 。 
从 教科 书 上 的 定义 来 看 ， 凸 函数 有 着 复杂 和 严格 的 定义 ,不 过 我 们 可 以 记 住 它 最 简单 
最 基础 的 性 质 一 一 也 是 一 个 必要 条 件 ， 如 下 : 


在 函数 fix) 上 有 任意 两 个 变量 X 和 X35 函数 满足 252 ia) ызы! А 





我 们 感觉 下 ， 这 种 函数 比 fx)=wx+b 那 种 直 勾 勾 的 函数 ， 具 备 了 一 种 特性 ， 那 就 是 
要 么 是 一 条 笔直 的 直线 ， 也 就 是 从 好 满足 /| 二 二] - SODS 的 时 候 ， 要 么 就 是 向 一 


侧 发 生 了 弯曲 ， 而 且 还 是 向 “下 方 ”发 生 了 弯曲 Даа) < Lae | 我 们 说 它 叫 


“ 凸 ” 函 数 ， 其 实 就 相当 于 我 们 在 函数 图 像 的 下 方 看 它 ， 函 数 向 我 们 观察 者 所 在 的 方向 凸 出 
来 了 ， 所 以 由 此 得 名 。 是 不 是 很 形象 呢 。 


HALOS 





RRESCSAL 
OBRAR N 





( 见 彩 插 ) 
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不 过 有 很 多 读者 朋友 可 能 会 觉得 这 种 说 法 太 奇 怪 了 ， 和 自己 的 认 知 恰恰 相反 ， 因 为 从 
我 们 “平视 ”的 角度 去 看 ， 人 怎么 看 怎么 像 个 止 进去 的 碗 或 者 盆 的 感觉 ， 可 是 人 家 就 不 叫 止 
函数 ， 非 得 反 着 来 不 可 。 你 看 ， 这 俩 高 智商 的 学 生 也 是 会 觉得 叫 法 有 和 争议， 没关系 ， 习 局 
就 好 了 。 

如 果 在 一 个 问题 的 求解 中 ， 最 后 我 们 把 这 个 问题 化 简 成 在 凸 函数 上 求 极 值 的 问题 就 算 
破解 了 ， 在 这 种 情况 下 就 需要 使 用 梯度 下 降 法 来 求 极 值 ， 而 这 种 方法 刚刚 我 们 已 经 找到 办 
法 了 。 核 心思 路 就 是 在 函数 的 曲线 (曲面 ) 上 初始 化 一 个 点 ， 然 后 让 他 沿 着 梯度 下 降 的 方向 
移动 ， 直 到 移动 到 函数 值 极 值 的 位 置 ， 这 个 位 置 视 具体 的 问题 而 定 ， 可 能 是 极 小 值 也 可 能 
是 极 大 值 一 一 因为 如 果 是 凹 函 数 那 就 是 梯度 上 升 的 方向 了 。 是 不 是 ? 


9. 二 元 (多 元 ) 凸 函数 
别 着 急 ， 我 们 快 摸 着 门 了 ， 现 在 一 维 凸 函数 的 极 值 我 们 可 以 用 编程 序 的 方法 解决 了 。 
ЛИ HES BCE AID, ATLA. RIKARE —A RK: 
z=flx, у)=х?^+8у? 





这 个 函数 图 像 如 下 : 


“x^2+8*y^2” 的 图 表 






| 、 беа: т=н | 
在 这 个 函数 上 我 们 要 想 从 开始 给 的 一 个 (хо, Yo) 的 点 通过 一 次 一 次 迭代 挪 到 极 值 点 上 去 
您 怕 跟 原来 思路 会 不 大 一 样 ， 和 一 元 凸 函数 不 同 ， 最 起 码 我 们 有 4 个 方向 可 以 试 ， 一 元 凸 
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函数 只 有 2 个 方向 ， 这 一 点 刚才 我 们 说 过 了 。 不 过 在 更 新 方程 zx,, = х, -7 YO a, 我 们 可 


是 发 现 一 个 窍门 ， 那 就 是 不 用 真 的 去 两 边 都 试 ， 这 个 更 新 方程 本 身 就 能 在 个 维度 上 “ 识 
别 ” 这 个 方向 ， 这 个 刚刚 我 们 也 说 过 了 。 那 么 在 两 个 维度 上 简化 后 应 该 有 这 样 两 个 方程 : 
Xari EU t yc сы) fn y У.а = у, sor 
注意 这 里 有 一 个 新 的 符号 出 现 y ， 这 个 像 反 着 的 “6” 一 样 的 符号 是 数学 上 用 


来 表示 偏 导数 的 符号 。 以 刚刚 说 的 函数 2=ftx, y) cie ЗУ, TE үк йул”, 
它 表示 的 含义 是 z=Jtx, у) 这 个 曲面 上 的 点 上 在 灌 着 平行 于 x 轴 的 方向 做 切线 ， 疼 中 就 表 


示 点 (x, y) 处 的 沿 着 平行 于 x 轴 方 向 的 切线 斜率 。 
“х^?+8*у^2” 的 图 表 


z -343217 102972 





д 
jj 2€ ux 它 表 示 的 含义 是 z=Ax, ») 这 个 曲面 上 的 点 上 在 沿 着 平行 于 y 轴 的 方向 做 切 


a. ы D) 就 表示 点 (x, y) LAYER TE y 轴 方 向 的 切线 斜率 。 
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“х^2+8%ул2" WAR 





A яи жай, LED p TED жуу VED д LEN 的 求法 一 样 。 以 


LED 为 例 就 是 在 这 个 表达 式 zin, y) rh, Je y 直接 当成 一 个 已 知 数 或 者 说 系数 来 看 待 ， 


wear, УТ шаш, эх уи LED я VED 这 种 写法 在 数学 层面 上 显得 太 


不 专业 了 ，; д T Sek LS TER, 通过 求 导 可 以 分 别 得 到 z= 
Дх, y)=x°+8y? 这 个 二 元 函数 中 ， 
ГО, у) _ 5, oO» ey 
Ox ду 


Of (x, y) 
ду 


那么 给 我 任何 一 个 点 (x, y)， 我 都 知道 这 一 кв LED g P 分 别 是 多 少 了 ， 例 


д 
ре Жы ЫШЫ. а ы, амы акан 
始 工作 了 ， 
UM ig 5 


不 过 对 于 计算 机 有 限 的 运算 能 力 来 说 计算 资源 永远 是 不 足 的 ， 在 实际 的 深度 学 习 网 络 
中 ,， 极 可 能 几 千 万 甚至 有 上 亿 个 维度 、 几 十 亿 个 维度 需要 更 新 ， 所 以 从 效率 层面 来 考虑 也 
是 希望 这 种 更 新 能 够 产生 最 高 效 的 收敛 效果 。 所 谓 “ 收 敛 ” 就 是 通过 多 次 迭代 逐步 允 近 想 
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要 求 的 值 这 个 过 程 ， 那 显然 在 准确 度 相当 的 情况 下 收敛 快 的 方法 会 更 受 欢迎 一 些 。 对 于 梯 

度 下 降 法 中 有 这 么 多 维度 的 选择 ， 例 如 z=fx, у) 就 有 两 个 维度 ， 什 么 更 新 原则 收敛 速度 会 
最 快 呢 ， 有 方法 可 循 吗 ? 

你 看 ， 小 山 包 的 四 个 

方向 硅 峭 程度 不 一 样 

N 


LH, PRBE ЖИЕ 
ОБЕРЕ. FARME 





( 见 彩 插 ) 


有 的 ， 在 一 个 三 维 空间 中 ， 在 山顶 上 往 山 脚下 前 进 ， 如 果 想 要 最 快 的 话 ， 那 就 是 沿 着 
最 陡峭 的 方向 去 走 了 。 这 里 有 一 个 名 词 叫 做 梯度 ， 记 做 : 
v-| =» sd 
x ° ду 
形式 上 是 两 个 方向 上 的 偏 导数 ， 每 次 如 果 进 行 更 新 的 时 候 就 用 ARAA E 
各 自 完 成 自己 的 更 新 量 ; 
_ pf 05 y) 
X, n Br 


„О, у) 
Уһ У, 7] ду 


如 果 变 量 很 多 ， 比 如 不 是 只 有 x 和 y， 而 是 有 1000 个 变量 ， 例 如 1000 个 w 怎么 办 ? 
也 是 一 样 的 ， 把 它们 表示 成 为 


y- FM Fw) AW) 
Ow, f Ow, "диод 


Хы = 


BES AR n 就 可 以 了 ， 得 到 : 

Wi = wW, - с» 
w [f] Ek i ӘЛИ», wh Fb n nt 表示 迭代 的 次 数 ， 在 这 个 例子 里 也 就 是 一 次 
迭代 对 1000 个 w 分 别 做 更 新 的 含义 。 


到 这 里 我 们 就 基本 已 经 理解 了 梯度 下 降 法 (最速 梯度 下 降 法 ) 在 多 元 凸 函数 上 更 新 所 经 
历 的 步 又 和 原理 。 那 么 如 何 解决 训练 问题 呢 ? 我 想 你 已 经 心里 明白 了 八 九 分 了 ， 只 要 能 够 
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把 残 差 Loss 函数 描述 成 待定 的 若干 个 w 所 描述 的 凸 函数 一 一 Zoss(w)， 那 么 就 可 以 用 梯度 下 
降 法 ， 用 最 快 的 方法 更 新 w 的 各 个 维度 ， 最 后 满足 Loss(w) 找到 极 值 点 的 位 置 就 算是 大 功 
告 成 了 。 


10. 损失 函数 

我 们 管 这 种 函数 叫 Cost 或 者 Loss 都 可 以 ， 还 是 外 国人 起 名 字 比 较 讲 究 ， 不 管 是 Cost 
还 是 Loss， 你 听 着 就 那么 让 人 心疼 ， 这 是 要 么 费 钱 要 么 有 损失 的 感觉 。 没 错 ， 这 东西 就 叫 
损失 函数 。 


Riu 6ED. HRES 
GETOSRIDOSO0GESES. 





损失 函数 这 个 叫 法 确实 非常 形象 ， 你 想 啊 ， 你 费 了 半天 劲 儿 做 了 个 拟 合 ， 本 身 是 为 了 
让 它 和 你 想 要 得 到 的 那个 真实 结果 一 致 ， 结 果 中 间 有 差距 了 ， 那 还 不 是 损失 啊 ? 问题 是 怎 
么 让 损失 变 小 ， 最 好 是 没有 损失 ， 只 要 损失 能 消灭 了 那 就 算是 圆满 了 。 

在 深度 学 习 中 的 损失 函数 其 实 是 不 一 而 足 的 ， 每 种 损失 函数 在 当初 诞生 的 时 候 都 是 有 
一 些 客观 环境 和 理由 的 。 但 不 管 是 哪 种 损失 函数 ， 都 有 这 样 几 个 特点 。 

特点 一 : 恒 非 负 。 

都 说 是 损失 了 ， 最 圆满 的 情况 就 是 没 损失 ， 或 者 说 损失 为 0， 但 凡 有 一 点 拟 合 的 偏差 那 
就 会 让 损失 增加 。 所 以 损失 函数 都 是 恒 非 负 的 ， 和 否则 也 无 法 出 现 合理 的 解释 了 。 

特点 二 : 误差 越 小 函数 值 越 小 。 

这 个 性 质 也 是 非常 重要 的 ， 如 果 函 数 定义 的 不 好 ， 优 化 起 来 没有 方向 或 者 逻辑 过 于 复 
杂 ， 那 对 于 问题 处 理 显 然 是 不 利 的 。 谁 愿意 没事 给 自己 找 个 逻辑 解释 绕 脖子 的 方法 来 解决 
问题 啊 ， 是 不 ? 

特点 三 : SCR. 

这 个 性 质 没有 那么 关键 。 收 敛 快 的 意思 就 是 指 在 我 们 优化 这 个 损失 函数 Loss 的 迭代 过 
程 中 需要 让 它 比 较 快 地 逼近 极 小 值 ， 逼 近 函 数值 的 低 点 。 同 等 情况 下 一 个 钟头 能 得 到 解 那 
绝对 没 必要 花 三 个 钟头 ， 好 的 损失 函数 的 定义 会 让 这 个 训练 时 间 在 一 定 程度 上 缩短 的 。 不 
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过 这 个 条 件 不 能 算是 必要 条 件 ， 因 为 它 只 要 不 影响 正确 性 ， 慢 一 点 其 实 也 不 能 算 作 “错误 " 。 
这 是 个 锦上添花 的 属性 ， 大 家 心里 有 个 数 就 行 了 。 


11. 导数 怎么 求 

最 后 一 个 问题 ， 导 数 怎么 求 。 这 一 小 节 很 关键 哦 ， 我 们 来 看 实现 用 梯度 下 降 法 更 新 
Loss(w) 的 一 段 程序 。 

注意 一 个 问题 ， 让 不 靠 谱 的 计算 机 用 加 减 乘除 来 做 更 新 的 过 程 中 ， 还 有 一 个 问题 我 们 
在 前 面 没 有 提 到 ， 那 就 是 怎么 求 导数 的 问题 。 学 过 高 等 数学 或 数学 分 析 的 读者 朋友 也 别 高 
兴 得 太 早 ， 损 失 函 数 Loss(w) 一 般 情况 下 都 呈现 出 一 种 看 上 去 非常 “不 规则 ”的 样子 ， 没 办 
法 通过 查 表 得 到 导数 的 表达 式 (也 就 是 我 们 说 的 解析 解 )。 那 也 就 更 不 可 能 通过 代 人 当时 这 
一 点 的 x 向 量 (n 个 维度 ) 值 来 求 得 各 个 方向 上 的 偏 导 数 的 数值 了 。 

不 过 我 们 还 是 有 办 法 来 求 一 个 偏 导 数 在 某 一 个 点 的 大 概 值 的 。 首 先 我 们 先 想 想 看 偏 导 
数 的 几何 定义 ， 就 是 切线 斜率 。 那 我 们 能 不 能 用 别 的 方法 求 出 切线 斜率 呢 ? 





我 们 还 是 以 一 个 一 元 二 次 曲线 为 例 ， 还 是 ft)=x2+2 吧 。 还 是 给 一 个 初始 化 的 点 ， 给 
(4, 18) Т. ERBI х, х, „чы! онн LO 应 该 取 值 多 少 呢 ? 


既然 是 求 切线 ， 切 线 的 定义 是 
jg +8) 
sate SO 的 定义 ， 分 子 上 是 一 个 jx+A)- Na)， 从 含义 上 来 看 ， 就 是 在 任何 一 个 x 


的 取 值 上 再 向 其 旁边 挪 一 个 A 大 小 ， 在 数学 和 物理 上 专门 用 来 表示 一 个 很 小 的 差 值 ， 注 意 
这 个 A 可 是 没有 说 正 负 值 。 所 以 分 子 上 ftx+A) - Дх) 的 含义 就 是 x 旁边 挪 一 个 A 后 再 看 这 
^ foc A) 与 当前 ftx) 的 差 值 。 好 ,我们 记 住 它 的 含义 ,再 来 看 分 母 。 

分 母 上 直接 就 是 一 个 A， 这 个 A 是 一 个 很 小 的 差 值 ， 没 喻 太 多 好 说 的 。 再 来 看 整个 表 
达 式 。 
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区 SO 束 体 的 含义 就 是 让 这 个 比值 中 的 人 无限 接近 于 0， 但 不 能 等 于 0 一 


4-0 
ОЕ НАНЕ ЕВГЕ. 

我 们 看 图 上 ， 这 个 A 在 无 限 趋 近 于 0 的 情况 下 你 会 发 现 ， 不 论 它 是 一 个 正 数 还 是 一 个 
负数 ， 最 后 都 趋 于 一 个 值 ， 就 是 这 个 点 的 斜率 值 。ftx+A) 一 fx) 是 这 个 三 角形 的 直 边 高 ，A 
是 三 角形 的 底 边 长 。 


Лх) 


Jfoct A) - fix) 
А 


如 果 是 这 样 ， 我 们 就 可 以 用 这 样 的 表达 式 来 近似 代替 导 函 数 的 斜率 值 了 。 还 是 以 (4, 


18) 为 例 ， 这 一 点 的 斜率 值 我 们 用 600 —/@) 来 试 试看 。 


f(x40.001)— f(x) 18.008001-18 
0.001 0.001 


得 到 的 这 个 值 还 是 相对 比较 精确 的 ， 既 然 有 了 这 种 方法 ， 那 么 在 任何 一 个 维度 
只 要 它 可 导 e 我 们 都 能 求 出 -7 LO 的 近似 值 ， 并 更 新 x = х, 77 Uo 不 用 担心 


8.001 = 8 的 误差 会 产生 盔 加 效果 ， 从 而 让 求解 出 问题 ， к-н 
用 来 确定 一 个 更 新 的 量 。 更 新 的 时 候 还 是 用 精确 的 方式 更 新 了 n 维度 向 量 x 的 某 个 维度 的 


值 而 已 ， 在 刚刚 这 个 示例 中 最 多 就 是 步 长 上 和 理想 的 7 多 2 可 能 差 了 0.0017 而 已， 影响 非 
常 有 限 ， 完 全 不 必 太 纠结 。 


12. 训练 过 程 
回 过 头 来 再 看 我 们 初始 化 (wo, bo, Lossy) 后 下 一 步 怎 么 做 ,一 切 都 水 到 渠 成 。 

OLoss OLoss 
5 7 35 

再 次 强调 一 下 ， 不 求 梯度 ( 偏 导数 ) 的 情况 下 ， 通 过 改变 w 或 5 的 值 是 一 定 能 够 比较 
出 来 移动 的 方向 的 ， 但 蚌 问 题 是 不 知道 移动 多 少 比 较 适宜 。 而 有 了 偏 导数 与 学 习 率 1 ЗЕ 
积 后 ， 当 这 个 点 逐步 接近 “ 碗 底 ” 的 时 候 ， 偏 导数 也 随 之 降低 ， 移 动 的 步伐 也 会 慢 慢 减 小 ， 
收敛 更 为 平缓 ， 不 会 轻易 出 现 “ 步 子 太 大 ”而 越过 最 低 点 的 情况 。 

一 轮 一 轮 进 行 迭代 ， 直 到 每 次 更 新 的 值 非常 小 ， 损 失 值 不 再 明显 减少 就 可 以 判断 为 训 
练 结 束 。 此 时 得 到 的 (w, b) 值 就 是 我 们 要 求 的 模型 


=8.001==8 








Ө 不 是 所 有 的 函数 都 有 导数 ， 也 不 是 所 有 的 函数 在 每 个 点 上 都 有 导数 的 定义 ， 在 这 里 不 做 过 多 的 讨论 了 。 
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y=wx+b 


中 最 为 合适 的 w 和 45 一 一 也 就 是 这 次 机 器 学 习 所 学 到 的 具体 内 容 。 


13. 模型 工作 

当 训 练 结束 后 ， 模 型 就 可 以 开始 工作 了 。 

这 个 工作 的 过 程 是 非常 简单 的 ， 那 就 是 把 一 个 输入 的 x 代入 到 训练 好 的 y=wx+b 中 去 ， 
使 它 输 出 一 个 y. 

这 个 过 程 比 起 刚刚 的 训练 过 程 时 间 要 短 得 多 ， 毕 竞 训练 过 程 需要 迭代 法 去 一 次 一 次 计 
算 双 近 要 求 的 解 ， 而 这 个 工作 过 程 完全 是 一 轮 普 通 的 加 减 乘除 运算 。 

可 以 说 ， 几 乎 所 有 的 机 器 学 习 算法 模型 都 会 体现 出 这 样 一 个 特点 ， 那 就 是 “训练 的 时 
间 很 长 ， 而 一 次 工作 的 时 间 很 短 ”。 


4.3 神经 网 络 的 训练 


在 看 时 了 一 个 线性 回归 的 训练 过 程 后， 我 们 回头 看 看 刚刚 那个 被 搁置 一 旁 很 久 的 两 层 
网 络 。 
输入 层 ud 输出 层 


о 


这 个 网 络 用 函数 表达 式 去 写 的 话 会 是 这 样 的 : 
Zz, = Wa F bis Vi =——, 

l+e™ 

1 
1+e 

看 到 这 样 的 情形 ， 我 们 应 该 不 会 感到 紧张 了 ,刚才 的 线性 回归 已 经 被 我 们 彻底 征服 了 。 
那么 即便 没有 人 告诉 我 们 ， 我们 也 会 知道 接 下 来 就 是 一 套 俗 不 可 耐 的 “初始 化 之 后 挪 啊 挪 ” 
的 过 程 一 一 把 整个 网 络 里 所 有 的 待定 系数 w ba wo bo 都 初始 化 一 个 值 ， 然 后 照 猫 画 虎 
地 按照 刚才 的 套路 ， 定 义 一 个 描述 误差 的 损失 函数 ， 然 后 将 w ba w b 逐步 变化 ， 直 
到 损失 函数 减 小 到 足够 小 就 OK 了 。 好 ,我 们 先 按照 这 个 套路 走 一 遍 看 看 。 


1. 准备 样本 

在 一 个 复杂 的 网 络 中 ， 我 们 准备 一 定数 量 的 用 来 训练 的 x 向量 ， 可 以 是 文本 ， 可 以 是 
图 片 ， 可 以 是 音频 ， 甚 至 可 以 是 音 视频 结合 的 更 为 复杂 的 训练 样本 ， 当 然 只 要 是 输入 到 网 
络 中 作为 训练 样本 的 一 定 是 向 量化 的 。 在 这 个 简单 的 网 络 里 为 了 看 得 清晰 一 些 还 是 举 普 通 
的 数字 为 例 。 





2, = Wy, * b, Yo = 
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这 里 我 们 造 10 个 x 值 1 到 10，10 个 > 值 0.1 到 1.0。 看 上 去 非常 像 一 个 线性 回归 的 关 
系 ， 对 不 对 ? 只 不 过 在 这 里 我 们 可 以 完全 装 作 不 知道 这 件 事 ， 让 计算 机 通过 网 络 自己 去 学 
23, thw, ban wo. b, 这 四 个 待定 参数 ， 学 出 来 什么 关系 就 是 什么 关系 。 


In 
但 都 是 美女 ， 记 住 了 ё? 
N 





( 见 彩 插 ) 
如 果 你 是 做 图 片 分 类 的 话 ， 那 你 还 要 给 每 个 样本 打上 标签 ， 


х Vin 

X, у, 

一 直 往 下 标 ， 直 到 我 们 准备 的 最 后 一 个 样本 : 

Xna Yao 
比如 ， 给 我 一 张 照片 x,， 我 标记 一 个 yy 一 一 猫 ， 给 我 一 张 照片 x,， 我 标记 一 个 y,， 一直 这 
样 下 去 ， 直 到 标记 完毕 所 有 的 照片 样本 。 

2. 清洗 处 理 

其 实 清洗 处 理 这 个 过 程 是 比较 复杂 的 ， 也 是 整个 神经 网 络 和 深度 学 习 中 比较 难 的 地 方 ， 
我 们 后 面 会 具体 针对 场景 进行 讨论 ， 现 在 我 们 只 要 了 解 到 在 放 人 网 络 进行 训练 之 前 ， 需 要 
进行 一 定 处 理 ， 处 理 的 目的 是 为 了 帮助 网 络 更 高 效 、 更 准确 地 做 好 分 类 ， 这 样 就 可 以 了 。 


ww ai bbt.com 60 00000 


$45 ”前 馈 神经 网 络 e 77 


3. 正式 训练 
在 前 面 的 工作 基本 做 好 的 情况 下 ， 我 们 就 可 以 开始 训练 模型 了 。 


输入 层 隐藏 层 输出 层 
i h о 


我 们 现在 要 做 的 事情 就 是 把 刚才 这 两 列 丢 进去 

















| анну | 9 | wA | 
png 4 er һа de | 
[o3 [| o [| s | s | 
根据 网 络 中 两 个 神经 元 的 表达 式 描 述 

= +Ь E 二 一 -一 一 ) 

Zh = WAX t Dhs у, Ite 

Z, = №,у, +6, У, 一 m 

l+e* 


x 一旦 代 和 人 之后， 就 会 是 这 样 一 个 映射 关系 了 : 
Zp = WX ED, Yn 三 一 一 

ipe W" 

ec Зан 

]-e^ 

那么 由 x My, 带 来 的 误差 值 也 可 以 定义 了 ， 也 就 是 : 

ZLossi= (y Y) 
由 10 个 训练 数据 共同 带 来 的 误差 值 就 变 成 了 : 


10 
Loss = 9 (Y, - Y.) 
i=l 


不 论 初始 化 w,、b;、w。、b, 是 什么 值 ， 这 个 损失 函数 Loss 都 是 恒 为 非 负 数 的 ， 现 在 就 
开始 “挪动 ”w、b;、w。、b, 这 四 个 待定 系数 来 逐步 减 小 Loss 的 过 程 了 。 这 个 似曾相识 的 
过 程 又 出 现 了 ， 也 就 是 需要 有 这 样 四 个 表达 式 来 做 更 新 : 


Zal = Wm *b,, Ул = 


OLoss 
Ow, 
боз 
Ob, 


(w,)" P бе —" 


(b, Jy = (b, y = 
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OLoss 
T b 


o 


OLoss 
7" 8b, 


(»,)" ="! - 
(b =(6,)""- 


OLoss Loss. 
EE 





其 他 都 好 理解 ， 无 非 是 一 个 “5 维 空间 里 的 碗 ” 找 碗 底 的 过 程 。 问题 是 下 


OL eL 
Єз, s 这 4 个 值 怎么 求 。 别 的 倒 不 怕 ， 求 不 出 来 那 就 要 面临 上 优化 梯度 下 降 过 程 中 


挪 得 过 大 越过 碗 底 的 问题 。 

办 法 还 是 有 的 ， 前 面 在 求 导数 的 补充 内 容 中 我 们 学 了 两 种 特殊 的 导 函 数 求解 方法 ， 一 
种 是 “ 连 程 型 "， 一 种 是 “ 嵌 套 型 *， 现 在 算是 派 上 用 场 了 。 首 先 用 个 技巧 把 整个 函数 做 个 
ЛЕ: 


10 1 10 
Loss = У (у. -y,) 2» Loss = 2,0% -y,) 
i=l i=l 


给 函数 前 面 配 出 一 个 了 来 ， 主要 是 为 了 一 会 儿 削 起 来 方便 。 然 后 再 用 “ 嵌 套 型 ”函数 
先 求 离 输出 端 最 近 





HY Loss 对 w,、b, 的 偏 导数 。 


OLoss _ È ou- у) 2». 
ob Ob, ӘБ, 
AREA SLT Eee ИЛИНЕ, Д ЕП, а П Ae) = Дх) + 














б), ЖА SO SO, шо), 现在 这 个 三 就 可 以 放心 地 做 展开 了 ， 就 变 成 ; 
10 
027^ аду о, 
a, Sez, ôb, 


两 级 就 结束 了 ， MTE ya HK у.) = ВН, Jn Mi dé z(5,) =w, +b, Hl 
OLoss 





心 的 读者 朋友 已 经 看 出 来 了 是 常数 1。 Fr EFT VAR ih == 


e 











Ow ^05 — me 


о о Ow, 


д 
Loss _ $ ou- у) Ф», 10 ду, Oz 
1 


| 


o 


同时 可 以 求 出 距离 输出 端 更 远 一 些 的 参数 的 偏 导数 : 
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д ps ay у, 
Loss o. ы E Vo Ho Oy, On 
OW, OW, OW, isl 02, ду, де, Ow, 
10 10 
aus OHOn I) 0009 ay, г ду дщ 
ab, Ob, Ob, i Oz, Oy, Oz, Ob, 
好 了 ， 到 此 为 止 我 们 已 经 把 每 次 更 新 的 这 4 个 表达 式 的 具体 值 都 可 以 求 出 来 了 
OLoss 
(w) = (w) -n E 
h h ôw, 
OLoss 
b ^ = (Б "d. 
(b,)" = (b,) 778b, 
(w,)" =(w,)"" нр 
OLoss 


b Ws. ad 
(6,)" =(6,) 7 0b, 


接 下 来 只 要 按照 表达 式 去 更 新 就 OK 了 。 其 他 结构 的 网 络 中 ， 可 能 会 有 这 样 一 些小 的 
区 别 。 

区 别 1: 在 训练 样本 很 多 的 情况 下 加 和 的 次 数 会 更 多 一 些 ， 有 1000 个 样本 就 是 1000 
次 ， 有 10000 个 样本 就 是 10000 次 。 

区 别 2. 如 果 网 络 层 数 更 深 ， 则 会 面 偏 导数 连 乘 的 项 就 很 长 ， 在 这 里 我 们 看 到 2 层 就 出 
现 4 个 , 而 如 果 有 10 层 ， 那 就 是 20 个 连 乘 。 





输入 层 隐藏 层 输出 层 
区 别 3. 如 果 网 络 更 为 复杂 ， 比 如 一 层 网 络 不 止 一 个 节点 ,那么 其 中 一 个 节点 上 系数 的 
偏 导 数 则 会 从 多 个 路 径 传播 过 去 ， 因 为 在 这 个 节点 的 后 面 会 有 不 止 一 个 节点 把 它 的 输出 当 
成 自己 的 输入 ， 从 而 形成 多 个 “ 媒 套 型 关系 ”。 


44 小 结 


到 此 为 止 我 们 已 经 了 解 到 了 最 简单 的 神经 网 络 的 训练 过 程 和 原理 了 。 以 后 我 们 还 会 学 
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到 更 为 复杂 的 神经 网 络 构建 方式 ， 但 是 从 本 质 来 讲 都 跟 我 们 这 一 章 所 学 习 的 内 容 一 样 ， 是 
通过 不 断 调整 各 个 神经 元 中 的 待定 系数 使 得 损失 函数 向 不 断 降低 的 方向 移动 。 

这 一 章 的 内 容 其 实 并 不 难 ， 我 想 对 于 没有 学 过 高 等 数学 的 读者 朋友 来 说 这 些 符 号 会 感 
党 让 人 很 头疼 。 这 些 符号 的 含义 大 家 如 果实 在 记 不 住 也 没关系 ， 只 要 记 住 原理 就 好 了 ， 就 
是 在 这 么 多 神经 元 更 新 的 时 候 ， 让 它们 每 个 值 都 往 一 个 方向 变 ， 什 么 方向 呢 ? 就 是 刚刚 我 
们 说 的 使 得 损失 函数 向 不 断 降 低 的 方向 变 ， 降 低 模型 预测 结果 和 给 定 的 目标 值 之 间 的 差距 ， 
这 点 记 住 了 就 足够 了 。 ' 

请 注意 ， 在 这 里 必须 强调 一 个 非常 重要 的 观点 。 刚 才 给 大 家 看 到 的 这 个 推导 过 程 是 一 
个 非常 简化 并 且 容 易 理 解 的 推导 过 程 ， 通 过 凸 优化 的 方式 能 够 顺利 求 出 损失 函数 的 极 值 。 
然而 我 们 在 真正 的 生产 环境 遇 到 的 各 种 神经 网 络 中 包含 着 非常 多 的 线性 和 非 线性 分 类 器 函 
数组 合 ， 这 也 就 意味 着 ， 在 这 种 复杂 的 网 络 环境 中 ， 损 失 函 数 极 有 可 能 ， 甚 至 可 以 说 几乎 
EPEN RAER ARN SRRA, EE” ARRE 
状 ， 而 非 前 面 我 们 画 出 来 的 一 个 大 碗 。 因 此 ， 在 真正 的 商用 框架 中 一 一 比如 本 书 所 讲 的 
TensorFlow 会 用 很 多 技巧 来 寻找 在 整个 向 量 空间 中 拥有 极 小 值 点 的 参数 向 量 。 对 于 这 种 不 
规则 形状 的 非 凸 函数 来 说 ， 当 然 也 是 可 以 通过 遗传 算法 、 随 机 梯度 下 降 等 多 种 方式 相 结合 
的 方法 来 不 断 试探 找到 极 小 值 点 位 置 的 。 当 然 ， 这 些 过 程 对 于 一 个 普通 的 TensorFlow 的 使 
用 者 来 说 是 透明 的 ， 它 们 已 经 由 那些 数据 科学 家 们 实现 并 封装 在 框架 中 了 。 

闲 言 少 叙 ， 我 们 很 快 开始 第 一 个 小 实验 ， 用 TensorFlow 小 试 牛刀 ， 来 做 一 个 手写 识别 
功能 的 实现 吧 。 
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在 我 们 了 解 了 最 简单 的 BP 神经 网 络 的 工作 原理 之 后 ， 我 们 迎 来 了 第 一 个 小 实验 内 
容 一 一 手写 板 功 能 ， 一 个 基于 MNIST 数据 集 的 神经 网 络 实验 。 让 我 们 见识 一 下 亲手 搭建 的 
神经 网 络 有 多 么 神奇 的 功能 吧 。 


5.1 MNIST 介绍 


MNIST 一 一 这 种 罕见 的 书写 风格 已 经 告诉 我 们 这 是 一 个 缩写 名 词 ， 它 的 全 称 是 Mixed 
National Institute of Standards and Technology database。 这 是 一 个 非常 庞大 的 手写 数字 数据 
库 ， 是 网 上 著名 的 公开 数据 集 之 一 。 在 网 上 有 不 少 这 种 数据 集 ， 都 是 做 机 器 学 习 和 深度 学 
习 的 研究 机 构 (大 部 分 是 一 些 大 学 或 者 政府 扶持 的 公益 项 目 ) 喜欢 拿 来 做 训练 和 测试 的 一 些 
标准 化 项 目 了 ， 后 面 我 们 还 会 接触 到 别 的 公开 数据 集 。 

这 些 数 据 集 有 两 个 功能 。 

一 个 功能 是 提供 了 大 量 的 数据 作为 训练 集 和 验证 集 ， 为 一 些 学 习 人 员 提 供 了 丰富 的 样 
本 信息 一 一 这 一 点 很 宝贵 ， 要 知道 在 深度 学 习 领 域 要 想 在 一 个 方面 有 比较 深 的 研究 成 果 ， 
除了 需要 具备 一 定 的 网 络 设 计 和 调 优 能 力 以 外 ， 还 有 一 个 就 是 要 有 丰富 的 训练 样本 。 另 一 
个 功能 就 是 可 以 形成 一 个 在 业内 相对 有 普 适 性 的 Benchmark 比 对 项 目 一 一 既然 大 家 用 的 数 
据 集 都 是 一 样 的 ， 那 么 每 个 人 设计 出 来 的 网 络 就 可 以 在 这 些 数据 集 上 不 断 互相 比较 ， 从 而 
验证 谁 家 的 网 络 设计 得 识别 率 更 高 。 

MNIST 的 官方 网 站 位 置 在 http://yann.lecun.com/exdb/mnist/。 虽 说 这 是 一 个 国际 性 的 大 
数据 集 项 目的 官方 网 站 ， 不 过 看 上 去 有 点 “不 友好 ”， 有 一 种 粗糙 、 廉 价 感 。 
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E э O |o mum 


THE MNIST DATABASE 
of handwritten digits 


Yann LeCun, Courant Institute, NYU 
Corinna Cortes, Google Labs, New York 
Christopher J.C. Burges. Microsoft Research, 
The MNIST database of handwritten digits, avadable from йиз page, has a training set of 60,000 examples, and a test set of 10,000 examples. It m a subset of a larger set available 
from NIST The digits have been size-notmalized and centered ш a fixed-size image 


1 is a good database for people whe want to try learning techniques and pattern recognition methods on real-world data while spendeng minimal effors on preprocesamg and 
formatting. 


Four files are available on this site: 


train-images ida? ubyte.gr: training set images (9312422 bytes) 
Erain- - Е 198: trsiaing set labels (28881 bytes) 
idx3-ubyte.gz: test set images (1648877 bytes) 


tiOk-images- усе. $: 
ELOk~ Label e-idxl-abyte.gzr test set labels (4542 bytes) 


please note that your browser may uncompress these files without telling you. If the files you downloaded have a larger загс than the above, they have been uncompressed by i 
your browser. Simply rename them to remove Фе gz extension. Some people have asked me "my application can't open your image files”. These files are not in any standard ishage 
format. You have to write your own (very simple) program to rend them. The file format із described at the bottom of thes page. 


Tbe orginal black and white (bilevel) -mages from NIST were size normalized to fit m а 20x20 pixel box while preserving their aspect ratio. The resulting mapes contam grey levels 
as a result of the anti-alsasing techmque used by the normalization algorithm the mages were centered in а 28x28 image by computing the center of mass of the релеја, and 
transiatmg the image зо as to position this роши at the center of the 28x28 field. 








我 发 现 国 外 很 多 大 项 目的 主办 人 都 有 这 种 倾向 一 一 就 是 我 把 事情 最 核心 的 东西 给 你 说 
清楚 就 行 了 ， 好 看 不 好 看 的 就 不 管 了 。 我 猜想 也 许 是 这 些 大 牛 中 的 大 牛 们 用 了 多 年 Linux 
Shell 之 后 留 下 的 后 遗 症 吧 …… 如 果 读 者 朋友 你 还 没有 用 过 Linux Shell， 那 就 从 现在 开始 去 
试 试 吧 ， 因 为 我 们 所 有 的 实验 包括 未 来 工作 的 时 候 90% 以 上 都 是 要 在 Linux 的 命令 行 模式 
下 工作 的 ， 那 种 方式 看 上 去 比 这 个 效果 还 粗糙 ， 完 全 是 本 着 “说 明白 就 行 ， 多 一 个 字 浪 费 ” 
的 交互 模式 来 设计 的 。 

在 这 个 网 页 的 下 半 部 分 有 一 个 历年 识别 算法 对 于 MNIST 数据 集 “ 刷 榜 ” 的 记录 ， 大 家 
可 以 参看 一 下 。 为 了 方便 读者 朋友 阅读 ， 我 们 这 里 截取 了 一 部 分 。 


CLASSIFIER PREPROCESSING нн Reference 
RATE (%) 


Linear Classifiers 


ee [ue — 
[meg faa _ 


K-Nearest Neighbors 


эзме обе 


shiftable edges 


subsampling to 
16 x 16 pixels 
h text 
feature extraction 


Boosted Stumps 


boosted trees (17 leaves) Kegl et al., ICML 2009 
stumps on Haar features 1.02 Kegl et al., ICML 2009 
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LeCun et al. 1998 
LeCun et al. 1998 
LeCun et al. 1998 


linear classifier (1-layer NN) 








linear classifier (1-layer NN) 







pairwise linear classifier 





K-NN with non-linear deformation (IDM) 
K-NN with non-linear deformation 
(P2DHMDM) 









Keysers et al. IEEE PAMI 2007 






Keysers et al. IEEE PAMI 2007 
















K-NN, Tangent Distance LeCun et al. 1998 


K-NN, shape context matching Belongie et al. IEEE PAMI 2002 
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( 续 ) 












TEST ERROR 
RATE (%) 


Non-Linear Classifiers ) 


CLASSIFIER PREPROCESSING Reference 







product of stumps on Haar f. Haar features 


Kegl et al., ICML 2009 





40 PCA + quadratic classifier 
1000 RBF + linear classifier 


LeCun et al. 1998 
LeCun et al. 1998 




















DeCoste and Scholkopf, MLJ 
Virtual SVM, deg-9 poly, 1-pixel jittered —— ор 


DeCoste and Scholkopf, MLJ 


Virtual SVM, deg-9 poly, 1-pixel jittered deskewing 0.68 


DeCoste and Scholkopf, MLJ 
2002 





Virtual SVM, deg-9 poly, 2-pixel jittered 


deskewing 0.56 


Neural Nets 
3-layer NN, 500+300 HU, softmax, cross 


1.53 Hinton, blished, 2005 
entropy, weight decay рр арна, 
2-layer NN, 800 HU, Cross-Entropy Loss Simard et al., ICDAR 2003 
- ‚8 А 3 
| 2 NUM 00 HU, cross-entropy [affine Simard et al., ICDAR 2003 
distortions] 
2-1 NN, 800 ‚ MSE ti 
bce, ‘vel ы ne 7 Simard et al., ICDAR 2003 
distortions] 


2-layer NN, 800 HU, cross-entropy 
[elastic distortions] 

NN, 784-500-500-2000-30 + nearest 
neighbor, RBM * NCA training [no| None 
distortions] 


None Simard et al., ICDAR 2003 


Salakhutdinov and Hinton, AI- 
Stats 2007 


Ciresan et al. Neural 
6-layer NN 784-2500-2000-1500-1000- 


500-10 (on GPU) [elastic distortions] 0.35 Computation 10, 2010 and arXiv 
5 
E = 1003.0358, 2010 
committee of 25 NN 784-800-10 [elastic width normalization, . 
0.39 Meier et al. ICDAR 2011 


distortions] deslanting 


|Ж 
а в 
© 
a 


deep convex net, unsup pre-training [no 
distortions] 


Deng et al. Interspeech 2010 


© 
со 
ы 


Convolutional nets 


subsampling to 14 
16 x 16 pixels j 


None 



















Convolutional net LeNet-1 LeCun et al. 1998 








Convolutional net LeNet-4 


Convolutional net LeNet-4 with K-NN 
instead of last layer 


LeCun et al. 1998 


LeCun et al. 1998 





Convolutional net LeNet-4 with local 


LeCun et al. 1998 
learning instead of last layer B 
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( 续 ) 
TEST ERROR 
CLASSIFIER PREPROCESSING Reference 
REPROCESSING RATE (%) 
© ti t LeNet-5 
| аюв ional net LeNet-5, [no LeCun et al, 1998 
distortions] 
А Net- 
Convolutional net LeNet-5, [huge LeCun et al. 1998 
distortions] 
Convolutional net LeNet-5, [distortions] | None — — — | 08 | LeCunetal 1998 
ional -4, 
onvo ions net Boosted LeNet 07 LeCun et al. 1998 
[distortions] 
Trainable feature extractor - SVMs [no 0.83 Lauer et al., Pattern Recognition 
distortions] i 40-6, 2007 
Trainable feature extractor + SVMs Lauer et al., Pattern Recognition 
[elastic distortions] 40-6, 2007 


Trainable feature extractor + SVMs 0.54 Lauer et al., Pattern Recognition 
[affine distortions] = 40-6, 2007 
upervised sparse features + 
PE н "e None Labusch et al., IEEE TNN 2008 
distortions] 
C jutional tro ffi 
| жю utional net，cross-entropy [affine Si et al., ICDAR 2003 
distortions] 


Convoluti tropy [elasti 
 Convolutionsl net, orost-ontiopy: elasti Simard et al., ICDAR 2003 
distortions] 


large conv. net, random features [no 


Be 0.89 Ranzato et al., CVPR 2007 
distortions] 


large conv. net, unsup features [no 


3 à None 
distortions] 


Ranzato et al., CVPR 2007 


large conv. net, unsup pretraining [no 


N 
distortions] - 


Ranzato et al., NIPS 2006 


large conv. net, unsup pretraining [elastic 


N 
distortions] > 


Ranzato et al., NIPS 2006 


large сопу. net, unsup pretraining [no 
distortions] 

large/deep conv. net, 1-20-40-60-80-100- 
120-120-10 [elastic distortions] 

committee of 7 сопу. net, 
1-20-P-40-P-150-10 [elastic distortions] 

committee of 35 conv. net, 
1-20-P-40-P-150-10 [elastic distortions] 


None Jarrett et al., ICCV 2009 


Ciresan et al. IJCAI 2011 


e 
їл 
p 


width normalization | 0.27 +—0.02 Ciresan et al. ICDAR 2011 


width normalization Ciresan et al. CVPR 2012 


由 于 MNIST 是 一 个 公开 的 数据 集 ， 所 以 任何 的 算法 都 可 以 拿 来 做 测试 。 在 这 个 表 上 
我 们 也 能 看 到 Linear Classifiers (线性 分 类 器 )、K-Nearest Neighbors (KNN， 开 近邻 算法 )、 
Boosted Stumps, Non-Linear Classifiers ( 非 线性 分 类 器 )、SVM (支持 向 量 机 )、Neural Net 
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(神经 网 络 )、Convolutional nets ( 卷 积 网 络 ) 这 么 几 种 大 的 分 类 器 派别 都 有 一 些 优秀 的 代表 
参与 过 “ 刷 榜 ”。 

表 上 有 4 列 ， 这 4 列 的 含义 分 别 是 CLASSIFIER 一 一 分 类 器 名 称 , PREPROCESSING 一 一 
HAL, TEST ERROR RATE (%) 一 一 测试 错误 率 ，Reference 一 一 参考 。 分 类 器 名 称 不 必 
说 了 ， 就 是 给 这 个 分 类 器 起 的 名 字 ， 预 处 理 项 更 像 是 一 种 注释 或 者 处 理 技巧 的 概念 ， 前 面 
几 种 分 类 器 比如 有 Haar features， 就 是 指 加 入 了 Haar 特征 的 算法 。 我 们 只 看 最 后 两 种 跟 我 
们 本 书 研究 内 容 有 关 的 神经 网 络 和 卷 积 网 络 这 两 个 部 分 ， 提 到 了 两 种 预 处 理 ， 一 种 叫 width 
normalization， 一 种 叫 deslanting. “ width normalization ”叫做 宽度 归 一 化 ， 关 于 归 一 化 的 
技巧 后 面 我 们 会 介绍 ， 这 种 技巧 对 提高 识别 的 准确 率 是 有 帮助 的 。 这 个 deslanting 的 词根 是 
slant 一 一 是 “倾斜 ”的 意思 ,那么 deslanting 就 是 防止 数据 倾斜 的 一 种 手段 了 。 

在 了 解 到 MNIST 的 一 些 背景 信息 之 后 ， 我 们 就 可 以 在 这 个 网 页 上 下 载 这 4 个 数据 文 
ЖТ. 

D train-images-idx3-ubyte.gz: training set images (9912422 bytes) 

О train-labels-idx1-ubyte.gz: training set labels (28881 bytes) 

D tlOk-images-idx3-ubyte.gz: test set images (1648877 bytes) 

(4 t10k-labels-idx1 -ubyte.gz: test set labels (4542 bytes) 

人 家 英文 名 字 标 得 很 到 位 ， 它 们 分 别 是 训练 图 片 、 训 练 标签 、 测 试图 片 、 测 试 标签 。 
也 就 是 通过 训练 集 来 让 模型 来 学 习 并 认识 这 些 数字 ， 并 让 模型 在 这 些 测 试图 片上 能 够 顺利 
地 识别 出 它们 来 。 


O00 0 Оер 
ШЕИ И. 
2122-1302 4 229 
22333 32555 
FAME ye 4 uuu 
$5555 S28 SSE 
“£6666 UL ёа 
AG FFA? ЖЛ. 
{6282934 4 BE? 
了 


MNIST 数据 集中 的 图 片 都 是 像 这 样 的 一 些 由 人 手写 得 到 的 数字 信息 ， 牌 牌 扭 扭 什 么 样 
子 的 都 有 。 我 们 下 面 就 用 TensorFlow 搭建 一 个 全 连接 的 BP 网 络 来 训练 并 在 验证 集 上 测试 。 
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5.2 [EH] TensorFlow 完成 实验 


在 本 书 中 我 们 采用 全 连接 网 络 完成 MNIST 数 据 集 手写 识别 的 工作 ， 这 段 代 码 在 
TensorFlow 官方 的 GitHub 上 面 也 是 有 的 ， 地 址 在 : https://github.com/tensorflow/tensorfiow , 


文件 目录 在 : 


tensorflow/tensorflow/examples/tutorials/mnist/ 中 。 


本 书 中 详细 讲解 的 代码 有 这 样 几 个 文件 fully connected feed.py、mnist.py、input_data.py。 
我 们 分 别 来 看 一 下 内 容 ， 由 于 代码 非常 长 ， 所 以 我 们 在 所 有 的 行 之 前 加 入 行 号 并 把 
部 分 内 容 做 了 省 略 处 理 ， 大 家 在 下 载 代码 后 也 请 对 照 行 号 来 看 具体 的 内 容 。 先 来 看 fully_ 


connected_feed.py: 


1 # Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


33 # Basic model parameters as external flags. 
34 FLAGS - None 


116 def 
117 
118 
119 
120 


121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 


run_training(): 

"""Train MNIST for a number of steps.""" 

# Get the sets of images and labels for training, validation, and 

# test on MNIST. 

data sets - input data.read data sets(FLAGS.input data dir, FLAGS.fake 
data) 


# Tell TensorFlow that the model will be built into the default Graph. 
with tf.Graph().as default(|): 

# Generate placeholders for the images and labels. 

images placeholder, labels placeholder - placeholder inputs( 
FLAGS.batch size) 


# Build a Graph that computes predictions from the inference model. 
logits - mnist.inference(images placeholder, 


FLAGS.hiddenl, 
FLAGS.hidden2) 


# Add to the Graph the Ops for loss calculation. 
loss - mnist.loss(logits, labels placeholder) 


# Add to the Graph the Ops that calculate and apply gradients. 
train op - mnist.training(loss, FLAGS.learning rate) 


# Add the Op to compare the logits to the labels during evaluation. 
eval correct - mnist.evaluation(logits, labels placeholder) 


# Build the summary Tensor based on the TF collection of Summaries. 
summary = tf.summary.merge all() 


# Add the variable initializer Op. 
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146 init = tf.global variables initializer() 


148 # Create a saver for writing training checkpoints. 
149 saver = tf.train.Saver() 


151 # Create a session for running Ops on the Graph. 
152 sess = tf.Session() 


154 # Instantiate a SummaryWriter to output summaries and the Graph. 
155 summary writer = tf.summary.FileWriter(FLAGS.log dir, sess.graph) 


157 # And then after everything is built: 


159 # Run the Op to initialize the variables. 
160 sess.run(init) 


162 4 Start the training loop. 
163 for step in xrange(FLAGS.max steps): 
164 start time - time.time() 


166 # Fill a feed dictionary with the actual set of images and labels 
167 # for this particular training step. 

168 feed dict = fill feed dict (data sets.train, 

169 images placeholder, 

170 labels placeholder) 


172 4 Run one step of the model. The return values are the activations 


177 , loss value - sess.run([train op, loss], 
178 feed dict-feed dict) 

179 

180 duration - time.time() - start time 

181 


182 # Write the summaries and print an overview fairly often. 

183 if step $ 100 == 

184 4 Print status to stdout. 

185 print('Step $d: loss = %.2# ($.3f sec)' % (step, loss value, duration)) 
186 # Update the events file. 

187 summary str - sess.run(summary, feed dict-feed dict) 

188 summary writer.add summary(summary str, step) 

189 summary writer.flush() 


191 4 Save a checkpoint and evaluate the model periodically. 
192 if (step + 1) $ 1000 == 0 or (step + 1) == FLAGS.max steps: 
193 checkpoint file = os.path.join(FLAGS.log dir, 'model.ckpt') 
194 saver.save(sess, checkpoint file, global step-step) 

195 # Evaluate against the training set. 

196 print('Training Data Eval:') 
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197 do_eval(sess, 

198 eval_correct, 

199 images placeholder, 

200 labels placeholder, 

201 data sets.train) 

202 # Evaluate against the validation set. 
203 print('Validation Data Eval:') 
204 do eval(sess, 

205 eval correct, 

206 images placeholder, 

207 labels placeholder, 

208 data sets.validation) 

209 # Evaluate against the test set. 
210 print('Test Data Eval:') 

211 do eval(sess, 

212 eval correct, 

213 images placeholder, 

214 labels placeholder, 

215 data sets.test) 


218 def main( ): 

219 if tf.gfile.Exists(FLAGS.log dir): 

220 tf.gfile.DeleteRecursively (FLAGS.log dir) 
221 tf.gfile.MakeDirs(FLAGS.log dir) 

222 run training() 


225 if | name <== ' main ': 
226 parser - argparse.ArgumentParser() 


276 FLAGS, unparsed - parser.parse known args() 
277 tf.app.run(main-main, argv-[sys.argv[0]] + unparsed) 


120 行 ， 准 备 训 练 、 验 证 和 测试 数据 集 。 这 里 TensorFlow 提供 了 内 置 模块 可 以 直接 操 
作 下 载 MNIST datasets 数据 集 。 

123 行 ， 使 用 默认 图 (graph), TensorFlow 里 使 用 图 来 表示 计算 任务 ， 图 中 的 节点 被 称 
为 Op (operation)， 一 个 Op 获取 0 个 或 多 个 tensor 执行 计算 ， 并 产生 0 个 或 多 个 tensor。 

225 一 277 行 ， 解 析 命 令 行 启 动 TensorFlow。 

218 ~ 222 行 ， 启动 TensorFlow 后 首先 调用 main 函数 ， 判 断 目 录 是 否 存 在 ， 存 在 就 删 
除 不 存在 就 创建 。 最 后 开始 训练 MNIST 数据 。 

TensorFlow 这 个 词汇 当然 是 Google 腾 造 出 来 的 ， 所 谓 tensor， 翻 译 成 中 文 是 张 量 , 不 
过 就 是 变量 、 向 量 的 含义 ， 在 手册 上 有 下 面 这 样 的 解释 ， 大 家 把 它 当 成 向 量 就 可 以 了 。 
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на хи 

0-0 | 一 个 ожа. ^и. 
1-0 一 个 1 维 张 量 的 形式 [5], 
2-0 

3-0 

nD 


一 个 2 维 张 量 的 形式 [3，4] 
一 个 3 维 张 量 的 形式 [1，4，3]. 
一 个 n 维 张 量 的 形式 100, DI, ... Dn). 


Python 例子 

5 = 483 

v7 [1.1, 2.2, 3.3] 

m= [(1, 2, 3), [4, 5, 6], (7, 8, 9]] 

à [t2], [4), [6]], [18], (10), [12]], (C14), (16), (1 





125 一 126 行 ， 创 建 图 片 和 其 对 应 的 标签 占 位 符 ， 后 面 真 正 使 用 时 会 进行 数据 填充 ， 这 
里 预先 告知 数据 的 形状 和 类 型 。 

129 — 140 行 ， 创 建 网 络 Op. loss Ор. gradients Op evaluation Op. 

143 行 ， 合 并 所 有 的 summary Op 为 一 个 Op。 

TensorFlow 里 所 有 出 现 summary 代码 的 地 方 都 是 在 创建 summary Op， 用 来 保存 训练 
过 程 中 你 想 要 记录 的 数据 。 比 如 : 


tf.summary.histogram('histogram', var) 
tf.summary.scalar('loss', loss) 


如 果 你 需要 记录 的 数据 很 多 ， 就 会 创建 很 多 summary Op， 这 时 候 使 用 tf.summary. 
merge all 来 合并 所 有 的 summary Op， 就 会 方便 很 多 。 

在 训练 过 程 中 使 用 summary FileWriter 把 这 些 数 据 写 人 磁盘 。 

在 训练 完毕 后 你 就 可 以 启动 Tensorboard : 


tensorboard. --logdir=path/to/logs 


然后 在 浏览 器 中 打开 Web 界面 http://localhost:6006 来 查看 训练 中 的 各 种 指标 数据 。 

在 训练 过 程 中 的 变化 情况 。 这 里 的 logdir 就 是 summary FileWriter 参数 里 填写 的 路 径 。 

146 行 ， 创 建 初始 化 变量 Op. 

149 行 ， 创 建 saver 来 保存 模型 。 

152 行 ， 创 建 会 话 (session) 上 下 文 ， 图 需要 在 会 话 中 运行 。 

155 行 ， 创建 summary FileWriter， 把 summary Op 返回 的 数据 写 到 磁盘 。 

160 行 ， 运行 初始 化 所 有 变量 ， 之 前 创建 的 Op 只 是 描述 了 数据 是 怎样 流动 或 者 怎么 计 
4, 没有 真正 开始 执行 运算 ， 只 有 把 Op ЖА sess.run(Op) 中 才 会 开始 运行 。 

163 行 ， 开 始 训练 循环 总 共 运 行 FLAGS.max_steps 个 step。 

164 行 ， 记 录 每 个 step 的 开始 时 间 。 
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168 一 170 行 ， 取 一 个 batch 训练 数据 ， 使 用 真实 数据 填充 图 片 和 标签 占 位 符 。 

177 一 178 行 ， 把 一 个 batch 数据 放 人 模型 进行 训练 ， 得 到 train op( 被 忽略 掉 了 ) 和 
loass ор 的 返回 值 ， 如 果 你 想 观察 Op 或 者 变量 的 值 ， 需 要 把 它们 放 到 列表 里 传 给 sess. 
run()， 然 后 它们 的 值 会 以 元 组 的 形式 返回 。 

180 行 ,计算 运行 一 个 step 花费 的 时 间 。 

183 ~ 189 行 ,每 100 个 step 把 summary 信息 写 人 磁盘 一 次 。 

192 ~ 215 17, f 1000 + step 或 者 是 最 后 一 个 step 保存 一 下 模型 ,并且 打 印 训练 过 程 
中 产生 的 模型 在 训练 、 验 证 、 测 试 数据 集 上 的 准确 率 。 

接 下 来 是 mnist.py 文件 : 


1 # Copyright 2015 The TensorFlow Authors. All Rights Reserved. 
35 import tensorflow as tf 
36 
37 # The MNIST dataset has 10 classes, representing the digits 0 through 9. 
38 NUM_CLASSES = 10 
39 
40 # The MNIST images are always 28x28 pixels. 
41 IMAGE SIZE = 28 
42 IMAGE PIXELS = IMAGE SIZE * IMAGE SIZE 
43 


45 def inference(images, hiddenl_units, hidden2 units): 

46 """Build the MNIST model up to where it may be used for inference. 
56 # Hidden 1 

57 with tf.name scope('hiddenl'): 

58 weights - tf.Variable( 

59 tf.truncated normal([IMAGE PIXELS, hiddenl units], 

60 stddev-1.0 / math.sqrt(float (IMAGE PIXELS))), 

61 name-'weights') 

62 biases = tf.Variable(tf.zeros([hiddenl units]), 

63 name-'biases') 

64 hiddenl = tf.nn.relu(tf.matmul(images, weights) + biases) 
65 # Hidden 2 

66 with tf.name scope('hidden2'): 

67 weights - tf.Variable( 

68 tf.truncated normal([hiddenl units, hidden2 units], 

69 stddev-1.0 / math.sqrt (float (hiddenl_units))), 

70 name-'weights') 

71 biases - tf.Variable(tf.zeros([hidden2 units]), 

72 name='biases') 

73 hidden2 = tf.nn.relu(tf.matmul(hiddenl, weights) + biases) 
74 # Linear 

75 with tf.name scope('softmax linear'): 

76 weights - tf.Variable( 

77 tf.truncated normal([hidden2 units, NUM CLASSES], 
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stddev=1.0 / math.sqrt (float (hidden2_units))), 
name-'weights') 

biases - tf.Variable(tf.zeros([NUM CLASSES]), 
name-'biases!) 

logits = tf.matmul(hidden2, weights) + biases 
return logits 


def loss(logits, labels): 
"""Calculates the loss from the logits and the labels. 


labels - tf.to int64(labels) 

cross entropy - tf.nn.sparse softmax cross entropy with logits( 
labels-labels, logits-logits, name-'xentropy') 

return tf.reduce mean(cross entropy, name-'xentropy mean!) 


def training(loss, learning rate): 
"""Sets up the training Ops. 


# Add a scalar summary for the snapshot loss. 
tf.summary.scalar('loss', loss) 


# Create the gradient descent optimizer with the given learning rate. 


optimizer - tf.train.GradientDescentOptimizer(learning rate) 

# Create a variable to track the global step. 

global step - tf.Variable(0, name-'global step', trainable-False) 
# Use the optimizer to apply the gradients that minimize the loss 


91 


# (and also increment the global step counter) as a single training step. 


train_op = optimizer.minimize(loss, global_step=global_step) 
return train_op 


def evaluation(logits, labels): 
'""""Evaluate the quality of the logits at predicting the label. 


Args: 

logits: Logits tensor, float - [batch_size, NUM_CLASSES]. 
labels: Labels tensor, int32 - [batch size], with values in the 
range [0, NUM CLASSES). 


Returns: 


A scalar int32 tensor with the number of examples (out of batch size) 


that were predicted correctly. 


oon 


# For a classifier model, we can use the in top k Op. 


# It returns a bool tensor with shape [batch_size] that is true for 


# the examples where the label is in the top К (here k-1) 
# of all logits for that example. 

correct = tf.nn.in top k(logits, labels, 1) 

# Return the number of true entries. 

return tf.reduce sum(tf.cast(correct, tf.int32)) 
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这 段 代码 比 前 面 那 段 略 短 一些 ， 含 义 也 非常 清晰 。 

38 fT, MNIST dataset 总 共 10 类 ,0 — 9 手写 数字 图 片 。 

41 — 42 47, MNIST dataset 每 张 图 片 像素 28 x 28. 

45 一 83 行 ， 构 建 网络 。 

57 ~ 64 行 ， 第 一 层 隐 藏 层 。 

57 行 ， 设 置 命名 空间 ， 不 同 的 命名 空间 中 变量 名 不 冲突 。 

print weigths.name 

# 输出 

hiddenl_1/weights/read:0 

58 一 61 行 ， 创 建 变量 和 权重 ， 使 用 截断 正 态 分 布 进行 初始 化 。 

62 一 63 行 ， 创 建 变量 和 偏 置 ， 全 部 初始 化 为 0。 

64 fT (ах+Ь) 过 激励 函数 relu。 这 里 w 就 是 权重 ,b 就 是 偏向 ,a 在 第 一 层 就 是 输入 图 片 ， 
不 在 第 一 层 就 是 上 一 层 的 输出 。 

66 一 73 行 ， 第 二 层 隐 藏 层 。 

75 一 82 行 ， 线 性 层 。 

86 ~ 99 行 ， 创 建 loss Op. 

96 行 ， 类 型 转换 。 

97 一 98 行 ,这 里 使 用 sparse softmax cross entropy with logits loss 每 张 图片 只 允许 
被 标记 为 一 个 类 别 。 

99 行 ， 取 均值 。 

120 行 ， 记 录 loss 变化 数值 。 

122 行 ， 使 用 梯度 下 降 优化 器 ， 传 人 学 习 率 。 

124 行 ,创建 变量 来 记录 全 局 步 数 。 

127 行 ， 使 用 优化 器 的 目的 是 最 小 化 loss。 

在 最 后 运行 文件 fully_connected feed.py: 


python fully connected feed.py 


这 下 就 可 以 看 到 分 类 的 结果 了 。 如 果 你 愿意 ， 当 然 同 样 可 以 用 自己 手写 的 数据 处 理 成 
相应 的 大 小 ， 然 后 给 程序 去 识别 。 


53 ”神经 网 络 为 什么 那么 强 


在 实验 中 我 们 看 到 ， 用 了 区 区 几 层 网 络 节点 就 能 识别 这 么 丰富 的 信息 。 而 且 这 些 信 息 
在 原始 的 给 出 来 的 数据 上 都 属于 典型 的 线性 不 可 分 。 也 就 是 说 要 对 最 开始 给 出 来 的 图 片 数 
据 做 分 类 ， 而 在 图 片 数 据 最 后 被 转化 成 一 个 784 维 的 向 量 的 时 候 ， 我 们 是 没有 办 法 通过 有 
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限 的 空间 里 的 几 条 线 把 它们 划分 开 的 。 





在 空间 里 如 果 有 这 样 的 一 些 点 形成 的 分 类 ， 我 们 能 够 用 有 限 的 一 些 直线 把 它 划分 成 几 
个 空间 ， 那 就 是 非常 理想 的 了 ， 这 种 就 是 典型 的 线性 可 分 的 模型 。 不 过 MNIST 所 提供 的 这 
些 图 片 数据 可 都 没 办 法 通过 有 限 的 这 样 儿 条 直线 来 把 图 片 向 量 的 点 切 开 ， 大 于 某 条 线 的 图 
片 向 量 表示 的 是 “1” 小 于 某 条 线 的 表示 的 是 “0”…… 做 不 到 。 一 条 直线 所 蕴含 的 分 类 信 
息 实在 是 太 有 限 了 ， 最 多 是 切 下 去 一 刀 把 空间 分 成 两 个 部 分 ,而 且 两 个 部 分 里 的 向 量 样本 
还 非常 不 纯 一 一 挫 杂 着 其 他 类 别 的 样本 。 这 种 情况 当然 是 非常 不 好 的 ， 说 明 一 个 线性 分 类 
器 没 办 法 达到 足够 的 分 类 纯度 。 怎 么 办 ， 往 下 看 。 


5.3.1 ”处 理 线性 不 可 分 


神经 网 络 最 强大 的 地 方 在 于 它 对 于 线性 不 可 分 问题 的 处 理 能 力 上 。 为 什么 深度 神经 网 
络 有 这 么 好 的 非 线性 分 类 的 能 力 呢 ?我 们 来 看 看 当 样本 通过 网 络 的 时 候 究竟 发 生 了 什么 。 








如 上 图 所 示 ， 在 一 个 二 维 空间 中 有 一 个 像 雪 花 一 样 的 图 形 。 它 内 部 的 空间 坐标 点 (x, 
妨 是 “分 类 1"， 外 面 的 坐标 点 是 “分 类 0"”。 这 样 一 个 “不 规则 ”图 形 用 普通 的 线性 分 类 
器 方式 来 做 分 类 仍然 是 无 论 如 何 找 不 到 一 条 直线 把 空间 恰好 分 为 两 个 部 分 一 一 部 分 是 组 
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成 雪花 图 形 的 部 分 ， 一 部 分 不 是 组 成 雪花 图 形 的 部 分 。 不 过 ， 虽 然 一 条 线 分 不 开 , 那 6 条 
线 呢 ? 

假如 我 在 空间 画 如 图 的 6 条 线 ， 分别 叫 1, ~ ks 6 条 线 在 空间 里 有 各 自 的 方程 表达 式 ， 
MSE Ly). LG, y). х,у), hs y). loo y). Ios у) BT o 

则 这 个 雪花 可 以 转化 成 为 一 个 中 心 的 正六 边 形 和 旁边 6 个 正三 角形 的 表达 式 的 并 集 。 
也 就 是 讲 ， 如 果 一 个 点 出 现在 中 间 的 正六 边 形 ， 或 六 边 形 外 侧 的 6 个 正三 角形 的 任何 一 个 
中 都 叫做 在 这 个 雪花 图 形 里 ， 都 被 称 作 “分 类 1”"， 而 此 外 的 都 成 为 “分 类 0" 。 那 么 这 7 个 
图 形 的 分 类 表达 式 我 们 就 分 别 构建 一 下 吧 。 | 

中 心 正六 边 形 : 

(х,у) € 0 (х,у) 2 00 L(x, y) <ON (х,у) 200 L(x, y) «0n х,у) > 0 

在 高 中 数学 里 我 们 是 学 过 的 ， 在 平面 直角 坐标 系 中 ， 如 果 有 一 条 直线 方程 : 

ax+by+c=0 
那么 处 于 这 条 线 上 方 的 点 (x1, у) 在 代入 这 个 方程 后 会 有 : 
ах,+Буу+с > 0 
而 处 于 这 条 线 下 方 的 点 Qo, у) 在 代入 这 个 方程 后 会 有 : 
ax,+by,+c <0 

所 以 ， 中 心 正六 边 形 的 含义 就 是 : 

ТЕ L(x, y) FH, 

HE b, y) ЕЛ, 

HE L(x, y) ЁЛ, 

HAE L(x, y) ЕЭ, 

HÆ I(x, у) 下 方 ， 

Н I(x, у) 上 方 。 

这 样 用 六 条 直线 我 就 在 平面 直角 坐标 系 中 把 一 个 正六 边 形 给 “ 抠 ” 出 来 了 。 如 果 把 其 
他 6 个 三 角形 也 都 这 样 “ 抠 ”出 来 ， 再 把 它们 并 在 一 起 ， 那 就 算 解决 问题 了 。 所 以 最 后 的 
表达 式 就 是 这 样 : 

F(x, y)= 

(L(x, y) € 0 à L(x, y) > ON (х,у) € ON Lx, y) > 0 П (х,у) € 0 n L(x, y) > 0) 

U 

(A(x, y) < 0 I(x, у) < 0 П (х,у) > 0) 

U 

(L(x, y) < 0 N L(x, y) < 0 N L(x, y) > 0) 

U 

(5x, y) < 0 П (х,у) < 0 Lx, y) > 0) 

U 
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(а(х, y) < 0 N L(x, y) <0 n L(x, y) > 0) 

U 

(L(x, y) € 0 П lx, y) € 0 n L(x, y) > 0) 

U 

(Ix, y) > ON L(x, y) > 00 L(x, y) < 0) 

每 个 图 形 表达 式 之 间 是 “或 ”关系 ， 图 形 内 部 用 来 “ 抠 出 ”图 形 的 直线 之 间 是 “ 且 ” 关 
系 。 最 后 代入 某 一 个 (x, у) 坐标 输出 1 的 就 是 在 雪花 图 形 中 的 点 ， 输 出 0 的 就 是 在 雪花 图 形 
之 外 的 点 。 这 种 线性 关系 好 构造 四 ?当然 啦 ! 每 个 神经 元 节点 的 表达 式 前 半 部 分 z==wx+b 
就 是 一 个 线性 分 类 器 的 模型 ， 而 且 还 是 任意 多 维度 的 。 棒 棒 味 ， 是 吧 。 那 神经 网 络 能 模拟 
出 “与 或 非 ”这 种 逻辑 运算 的 非 线性 效果 吗 ? 可 以 明确 地 说 “能 "， 我 们 往 下 看 。 


5.3.2 ”挑战 “与 或 非 ” 
我 们 现在 的 目的 是 要 构建 一 个 神经 元 ， 让 这 个 神经 元 有 两 个 输入 点 ， 使 得 它们 两 个 的 


输出 呈现 出 “与 或 非 ”的 效果 。 
P ri 


2 


假设 这 个 神经 元 有 x Al x, 两 个 输入 项 ， 中 间 的 z=wr+z 就 是 z=wixi+wx2+b， 最 后 
的 输出 O=—!— ， 这 就 是 一 个 标准 的 用 Sigmoid 作为 激励 函数 的 单个 神经 元 模型 了 。 


Ie] 


1. "5" jn f 

我 们 用 这 样 一 个 表 来 表示 x ЖП x, 两 个 输入 项 各 自 的 值 和 期 望 的 输出 值 0。 学 过 数字 电 
路 或 者 数字 逻辑 的 朋友 可 能 会 比较 熟悉 规则 了 : 

о 两 个 1 做 “与 ”运算 ， 会 输出 1 的 结果 ; 

口 一 个 1 和 一 个 0 做 “与 ”运算 ， 会 输出 0 的 结果 ; 

口 两 个 0 做 “与 ”运算 ， 会 输出 0 的 结果 。 

如 下 表 所 示 : 





那么 构造 一 个 w 和 4b 使 其 满足 上 面 这 个 约束 实际 也 是 很 容易 的 ， 取 w=[20, 20], 
b= 一 30。 这 样 通过 z=wx+b 之 后 会 得 到 下 面 的 结果 。 
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DO z=wxtb 输入 与 输出 ， 如 下 表 所 示 : 





1 


这 样 一 个 结果 ， 再 通过 Sigmoid 激励 函数 Az) = 





， 很 容易 得 到 与 期 望 一 致 的 1 和 


1+e 
0 的 输出 结果 。 
1 e 
@ О= 输入 与 输出 ， 如 下 表 所 示 : 

7 о 

10 0.9999546021 
-10 0.0000453979 
—10 0.0000453979 
-30 0.0000000000 


在 保留 10 位 小 数 以 后 能 够 看 到 和 预期 很 接近 的 结果 。 所 以 构造 “与 ”运算 我 们 已 经 成 
功 了 。 


2.“ 或 ”运算 
同样 ， 构 造 一 个 “或 ”关系 计算 也 很 容易 。 首 先 看 下 “或 ”运算 ， 如 下 表 所 示 : 





那么 构造 一 个 w 和 4b 使 其 满足 上 面 这 个 约束 实际 也 是 很 容易 的 ， 取 w=[20, 20], 
b= 一 10。 这 样 通过 z=wx+b 之 后 会 得 到 : 
中 z=wx+b 输 入 与 输出 ， 如 下 表 所 示 : 





1 


这 样 一 个 结果 ， 再 通过 Sigmoid 激励 函数 f(z) = 
和 0 的 输出 结果 。 





= ， 也 很 容易 得 到 与 期 望 一 致 的 1 


1+e 
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@ O= 输入 与 输出 ， 如 下 表 所 示 : 





l+e* 
z о 
30 1.0000000000 
10 0.9999546021 
10 0.9999546021 
-10 0.0000453979 
在 保留 10 位 小 数 以 后 几乎 也 跟 我 们 的 预期 差不多 。 所 以 构造 “或 ”运算 我 们 也 成 功 了 。 
3.“ 非 ”运算 


最 后 我 们 用 同样 的 技巧 构造 一 个 “ 非 ”运算 。 " 非 ”运算 和 “与 ”运算 、 ”或 ”运算 不 同 ， 
它 只 有 一 个 输入 ， 所 以 模型 略 有 不 同 。 


“ 非 ” 运 算 看 上 去 要 简单 一 些 ， 只 有 一 个 输入 x， 如 下 表 所 示 。 
x о 
1 0 
0 
那么 构造 一 个 w 和 如 使 其 满足 上 面 这 个 约束 ， 取 w=[-20]，%=10。 这 样 通过 z=wx+p 
之 后 会 得 到 下 面 的 结果 。 
Ф z=wx+b 输入 与 输出 ， 如 下 表 所 示 。 


X 2 
0 10 


à) 0- — MA Si, 如 下 表 所 示 。 


z о 
-10 0.0000453979 
10 0.9999546021 
这 个 构造 仍然 是 成 功 的 。 


在 构造 “与 或 非 ” 的 过 程 中 ， 我 们 看 到 利用 Sigmoid 这 种 函数 的 非 线性 特效 能 够 为 分 
类 器 引入 一 定 的 非 线性 分 类 效果 ， 这 种 特性 在 网 络 中 发 挥 着 线性 分 类 器 和 其 他 传统 的 基于 
统计 的 分 类 器 所 不 能 比拟 的 作用 。 
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5.3.3 ”丰富 的 VC 一 一 强大 的 空间 划分 能 力 

要 说 到 神经 网 络 为 什么 有 这 么 强 的 学 习 能 力 ， 就 必须 说 它 所 具备 的 一 个 强大 功能 一 一 
它 有 丰富 的 VC 维 。 别 误会 ， 这 一 节 不 是 要 给 农夫 果园 或 者 鲜 森 多 做 植 人 广告 。 这 个 VC HE 
的 英文 全 称 是 Vapnik-Chervonenkis Dimension， 是 一 种 对 空间 划分 能 力 的 表示 。 

咱们 就 说 一 条 直线 能 够 把 一 个 二 维 空间 最 多 分 成 两 个 部 分 ， 一 个 平面 可 以 把 一 个 三 维 
空间 最 多 分 成 两 个 部 分 ， 这 种 划分 的 能 力 就 是 在 N 维 空间 下 的 一 个 N-1 维 空间 中 的 线性 表 
达 式 对 其 划分 的 能 力 。 

VC 维 的 定义 是 这 样 的 : 

ФНЕ- ЛФ, CHRAHNCH{hN CheH}, MRHNCAST CHRHFE, 
我 们 称 C RH HF) CTH), НУС ЕКИ D, Е МЕЕСИ 
th ADR DSF GI, 

AA EAM Т, RIKŽ MATEA. 






X, 





о о 
ра о 
* 
о о 
x; x x, 


在 一 个 2 维 的 向 量 空间 空间 中 ， 如 果 样 本 数 为 3 (3 个 不 同 的 点 ) 分 类 方式 为 2 (2 种 
分 类 方式 ， 圈 圈 和 叉子 ) 那么 可 以 完全 分 开 。 就 像 图 上 这 样 ， 除 了 三 点 严格 共 线 的 情况 以 外 
(其 实 这 种 情况 基本 只 在 学 术 上 有 讨论 价值 ， 因 为 如 果 不 是 你 故意 去 做 的 话 ， 自 然 界 也 是 找 
不 到 这 种 所 谓 严 格 三 点 共 线 且 偏 差 为 零 的 情形 ， 因 为 偏 一 点 点 都 不 算 )， 其 他 任何 情况 下 都 
可 以 用 一 条 直线 (线性 分 类 器 ftx)=wx+b) 给 分 开 。 那 么 2 维 空间 中 的 线性 分 类 器 的 VC HE 
就 是 3 (3 个 不 同 的 样本 点 )。 

想 想 看 ， 一 个 借 大 的 深度 学 习 网 络 中 有 成 千 上 网 个 神经 元 ， 每 个 神经 元 可 以 设计 成 为 
有 线性 分 类 能 力 的 分 类 器 ， 或 者 非 线性 分 类 能 力 的 分 类 器 ， 或 者 “与 或 非 ” 这 种 运算 能 力 。 
有 了 大 量 这 些 分 类 功能 和 运算 功能 的 组 合 ， 一 个 深度 学 习 网 络 的 划分 能 力 比 起 普通 的 分 类 
模型 来 说 是 有 了 空前 的 提升 。 而 且 一 般 来 说 深度 越 大 ， 神 经 元 越 多 ，VC 维 就 越 高 ， 划 分 的 
能 力 就 越 强 ， 分 类 的 能 力 就 越 惊人 ， 学 习 到 的 内 容 就 越 丰富 。 
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VC 维 既然 这 么 好 ， 那 我 随便 一 个 网 络 是 不 是 都 是 设计 得 越 深 越 好 ， 内 容 越 丰富 越 好 ， 
这 样 就 一 定 能 训练 出 好 的 模型 来 呢 ? 答案 却 是 否定 的 。 

首先 网 络 越 大 ， 所 要 训练 的 w 和 4b 就 越 多 ， 训练 过 程 中 的 计算 复杂 度 就 越 高 ， 收 敛 就 
越 慢 ， 这 个 是 一 定 的 。 所 以 现在 在 网 络 设计 稍微 复杂 一 点 的 环境 中 都 不 得 不 使 用 GPU 来 加 
强 并 行 计算 的 能 力 ， 因 为 使 用 CPU 做 训练 的 收敛 速度 实在 是 太 慢 了 ， 在 本 书 涉 及 的 这 些 相 
对 简单 的 深度 学 习 网 络 中 ， 如 果 你 用 CPU 进行 训练 ， 恺 怕 都 是 动 辆 数 十 小 时 甚至 是 数 天 之 
久 的 比 马 拉 松 还 要 夸张 得 多 的 过 程 。 

再 者 ， 训 练 样本 和 标签 之 间 所 拥有 的 客观 存在 的 关系 本 质 ， 是 能 否 够 训练 出 优质 模型 
的 关键 ,这 点 非常 重要 。 所 以 那些 盲目 崇拜 深度 学 习 的 朋友 先 考虑 一 下 这 个 问题 。 如 果 你 
的 训练 样本 中 的 特征 数据 (输入 的 x 维度 ) 与 标签 项 之 间 的 本 质 关 系 假设 是 有 误 的 ， 那么 神 
经 网 络 训练 多 久 都 不 会 收敛 到 你 满意 的 程度 。 或 者 换 一 个 显得 学 术 一 些 的 说 法 ， 如 果 你 提 
供 的 训练 数据 向 量 在 标签 分 类 的 过 程 中 ， 没 办 法 使 得 信息 蚁 下 降 ， 那 就 没 办 法 训练 出 好 的 
模型 。 举 个 例子 ， 如 果 你 想 通 过 一 系列 有 关 天 气 的 x 向 量 (气温 、 气 压 、 温 度 、 湿 度 、 风 
速 、 风 向 、 月 份 、 日 期 、 小时、 经 度 、 维 度 ) 和 yy 向量 (未 来 1 小 时 降水 概率 ) 这 一 训练 样 
本 集合 来 训练 一 个 模型 ， 预 测 未 来 1 小 时 降水 概率 的 话 ， 虽 然 我 没有 做 这 个 实验 ,我 也 会 
觉得 只 要 网 络 设 计 的 基本 合理 还 是 会 得 到 一 个 相对 满意 的 结果 的 ， 起 码 我 会 觉得 这 些 维度 
对 于 最 终 判 断 一 个 降水 概率 是 有 贡献 的 。 如 果 x 向 量 给 的 不 是 这 样 的 数据 而 是 其 他 形式 的 
数据 则 会 有 问题 ， 比 如 x 向量 为 “气温 、 气 压 ", 或 者 x 向量 为 “当天 大 米 价格 ”。 前 者 我 
们 看 到 有 气温 和 气压 两 个 维度 ， 这 两 个 维度 应 该 说 对 降雨 是 有 影响 的 ,但 是 似乎 不 够 ， 两 
个 维度 不 足以 把 分 类 的 焙 降 到 足够 低 ， 不 足以 把 降水 概率 预测 准 。 第 二 个 就 很 荡 唐 了 ， 这 
两 者 几乎 是 没有 什么 联系 ， 如 果真 的 放 到 网 络 里 去 训练 ， 应 该 是 Loss 函数 一 直 都 很 大 ， 然 
后 怎么 训练 都 不 下 降 …… 这 简直 是 一 定 的 啊 ， 这 种 情况 会 难为 死神 经 网 络 的 ， 这 根本 就 是 
很 独立 的 两 件 事情 。 

最 后 一 点 ， 丰 富 的 VC 维 会 让 网 络 处 于 容易 过 拟 合 的 状态 。 过 拟 合 是 几乎 所 有 的 机 器 
学 习 算法 中 都 有 可 能 会 遇 到 的 问题 ， 关 于 成 因 和 防止 的 方法 我 们 好 好 讨论 一 下 。 


5.4 验证 集 、 测 试 集 与 防止 过 拟 合 


所 谓 传 统 的 机 器 学 习 也 好 ， 深 度 学 习 也 罢 ， 其 实 目的 都 是 用 机 器 代替 人 来 学 习 一 些 事 
物 的 特征 ， 进 而 帮助 人 类 做 出 判断 或 者 自动 处 理 。 但 是 ， 与 传统 的 机 器 学 习 概 念 不 同 ， 深 
度 学 习 背 后 原理 的 解释 性 非常 差 ， 我 们 来 做 个 比较 。 

以 传统 机 器 学 习 中 的 监督 学 习 为 例 ， 朴 素 贝 叶 斯 实现 的 是 概率 量化 计算 的 模型 ， 它 的 
解释 是 通过 对 样本 的 统计 ， 然 后 算出 某 件 事 A 发 生 的 概率 和 某 件 事 В 发 生 的 概率 之 间 的 量 
化 关系 。 

决策 树 实现 的 是 通过 选择 合适 的 维度 来 增加 约束 条 件 降低 分 类 的 信息 炉 。 
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回归 模型 是 通过 建 模 和 拟 合 来 确定 待定 系数 ， 通 过 不 断 调 整 待定 系数 的 大 小 来 降低 残 
差 的 大 小 ， 也 就 是 降低 模型 预测 值 与 训练 目标 值 的 差距 。 

SVM 是 通过 超 平面 来 分 割 空间 中 不 同 的 分 类 向 量 ， 让 它们 到 超 平面 的 距离 尽 可 能 
远 …… 这 些 模型 的 物理 解释 非常 明确 ， 每 一 个 步骤 每 一 个 得 到 的 模型 中 的 系数 都 有 着 清晰 
的 含义 。 而 且 ， 向 量 的 维度 数量 和 维度 值 是 一 定 要 由 我 们 人 类 来 归纳 量化 的 。 把 这 些 人 提 
取 过 的 有 清晰 函数 的 量化 值 放 人 模型 进行 训练 得 到 的 模型 ， 解 释 也 就 会 让 人 觉得 其 意义 非 
常 明确 。 

深度 学 习 与 此 不 同 的 是 ， 它 通过 大 量 的 线性 分 类 器 或 非 线性 分 类 器 、 可 导 或 不 可 导 的 
激励 函数 ， 以 及 池 化 层 (在 卷 积 网 络 中 会 用 到 这 种 设计 ) 等 功能 对 观测 对 象 的 特征 进行 自动 
化 的 提取 。 例 如 一 张 图 ， 比 方 说 刚刚 的 MNIST 数据 集中 的 图 ， 这 些 图 都 是 把 像素 级 别 的 向 
量 直接 放 入 神经 网 络 ， 人 们 已 经 不 对 这 类 数据 再 做 一 次 归纳 和 特征 提取 了 。 神 经 网 络 有 让 
富 的 感知 功能 ， 能 够 把 这 些 最 小 级 别 的 数值 提取 出 来 ， 例 如 一 个 像素 的 RGB 颜色 ， 通 过 网 
络 训练 的 过 程 逐 步 发现 其 中 的 特征 规律 。 神 经 网 络 丰富 的 VC 维 是 有 这 个 能 力 的 ， 能 够 发 
现 那 些 在 训练 数据 集中 体现 出 来 共性 的 对 网 络 的 刺激 ， 忽 略 那 些 训练 样本 之 间 的 对 分 类 影 
响 微 乎 其 微 的 维度 的 差异 。 这 种 不 用 人 类 再 帮助 机 器 提取 特征 的 特性 确实 非常 吸引 人 ， 不 
过 要 让 它 能 够 为 我 们 完成 这 件 事 ， 就 要 在 网 络 中 提供 丰富 的 VC 维 一 一 通常 的 手段 就 是 加 深 
网 络 的 深度 ， 加 多 神经 元 的 数量 。 我 们 粗略 想 一 个 数量 级 吧 ， 如 果 一 个 神经 元 能 够 成 功 分 
开 两 个 分 类 输出 1 和 0 一 一 2'， 那 么 两 个 神经 元 理论 上 应 该 最 多 就 能 成 功 分 开 4 个 分 类 一 一 
2, 1000 个 神经 元 就 是 2” 个 分 类 一 一 大 概 是 1 x 10 这 么 多 ! 

拥有 如 此 好 的 分 类 能 力 会 带 来 两 个 问题 : 

其 一 ， 在 这 么 复杂 的 网 络 中 ， 如 此 多 的 w 已 经 早 就 没有 了 统计 学 中 的 权 值 权 重 的 意义 ， 
无 法 得 到 清晰 的 物理 解释 ， 也 无 法 有 效 地 进行 逆向 研究 。 所 以 深度 学 习 的 模型 训练 得 再 好 
也 只 能 当成 一 个 黑匣子 来 使 用 。 例 如 ， 我 把 大 量 的 广告 图 片 向 量 ， 比 如 1000 万 张 图 片 的 像 
素 级 向 量 x 和 每 张 图 片 的 点 击 量 充当 的 标签 y 作 为 训练 样本 给 到 神经 网 络 让 它 训 练 。 训 练 
完了 之 后 在 网 络 中 得 到 了 很 多 的 w 和 4b， 然 而 这 些 w 和 4b 的 大 小 已 经 没有 解释 了 一 一 起 码 
不 能 解释 为 对 某 个 像素 的 感知 权重 更 高 ， 它 们 之 间 的 释 加 关系 太 复杂 了 。 而 这 种 不 能 解释 
的 模型 现在 还 在 大 行 其 道 ， 而 且 很 多 人 还 愿意 来 研究 它 ， 主 要 是 因为 这 种 模型 在 实验 中 的 
良好 表现 和 良好 的 泛 化 性 特点 一 一 也 就 是 换个 数据 集 ， 换 个 场景 还 能 用 神经 网 络 的 建 模 思 
路 得 到 解决 方案 。 

其 二 ， 这 种 拥有 极 高 的 VC 维 的 网 络 能 够 学 到 很 多 东西 ， 包 括 那 些 样 本 中 所 包含 的 品 
声 信息 或 者 特例 信息 ， 这 是 极为 糟糕 的 事情 。 这 种 学 习 能 力 通 常会 导致 ， 你 把 个 案 性 的 训 
练 样本 给 到 神经 网 络 ， 它 能 把 每 个 个 案 中 的 特点 都 牢 牢 记 下 来 ， 在 训练 集 上 的 Loss 能 保证 
很 低 ， 识 别 率 极 高 ， 但 是 换个 新 样本 来 让 它 识别 ， 它 就 会 严重 误 判 。 
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这 就 好 比 我 们 教 孩 子 看 图 说 话 ， 给 他 看 的 东西 越 多 ， 尤 其 是 同样 的 东西 多 给 他 看 几 种 ， 
这 种 情况 下 ,他 自己 就 会 进行 归纳 总 结 ， 忽 略 掉 这 些 样本 之 间 的 差异 ， 找 出 共性 ， 来 提高 
泛 化 性 。 可 是 如 果 你 只 给 它 看 过 极 少 的 样本 ， 他 误 判 的 可 能 性 就 会 变 高 ， 泛 化 性 就 会 变 差 。 
比如 ， 你 只 给 他 看 过 一 张 SUV (sport utility vehicle， 即 运动 型 多 用 途 汽车 ) 的 照片 ， 告 诉 
他 这 叫 汽车 ， 他 也 确实 记 住 了 ， 出 门 后 看 到 一 辆 水 泥 钠 大 卡车 ， 他 就 会 觉得 疑惑 ， 因 为 这 
个 东西 跟 你 教 给 他 的 汽车 样子 相差 实在 是 太 多 了 。 而 如 果 你 给 他 多 几 个 汽车 的 图 片 ， 小 轿 
Е. ЖЕ. SUV, MEE, КЕ. RE MKE 他 就 会 记 住 它们 的 共性 一 一 有 若干 个 
轮子 可 以 行走 的 ， 有 玻璃 ， 有 车 灯 …… 这 下 他 再 见 到 别 的 车 辆 类 别 可 能 也 能 顺利 识别 了 。 












看 看 ， 过 拟 合 的 原因 和 预防 方法 我 们 都 已 经 总 结 出 来 了 。 

原因 : 样本 过 少 ， 不 足以 总 结 归纳 其 共性 。 参 数 过 多 ， 能 够 拟 合 极为 复杂 的 特征 内 容 。 

改善 方案 : 增加 样本 数量 ， 理 论 上 说 是 越 多 越 好 。 

检查 手段 : 拿 一 些 样本 来 验证 一 下 。 

在 现在 的 以 深度 学 习 为 技术 基础 的 工程 实现 方面 ， 通 常会 把 拿 到 的 所 有 样本 数据 分 为 
下 面 三 个 集合 。 

1 ) 训练 集 (training set): 用 来 学 习 的 样本 集 ， 通 过 这 些 向 量 来 确定 网 络 中 的 各 个 待定 
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系数 。 

2) 验证 集 (validation set): 是 用 来 调整 分 类 器 的 参数 的 样本 集 ， 在 训练 的 过 程 中 ， 网 
络 模 型 会 立刻 在 验证 集 进行 验证 。 我 们 会 同步 观察 到 在 这 个 验证 集 数 据 上 模型 的 表现 如 何 ， 
损失 函数 值 是 否 会 下 降 ， 准 确 率 是 否 在 提高 。 

3) 测试 集 (test set): 测试 集 则 是 在 训练 后 为 测试 模型 的 能 力 (主要 是 分 类 能 力 ) 而 设 
置 的 一 部 分 数据 集合 。 

通常 训练 集会 在 所 有 样本 中 占 大 头 ， 例 如 50%, 60% 抑或 更 多 。 验 证 集 和 测试 集 相 对 
都 比较 小 ， 大 概 数量 级 别 是 在 25%, 20% 甚至 有 可 能 更 少 一 些 。 

注意 ， 验 证 集 是 我 们 在 深度 学 习 中 预防 过 拟 合 的 手段 之 一 ， 也 可 以 说 是 深度 学 习 训 练 
过 程 中 的 标 配 。 在 TensorFlow 中 是 在 训练 的 过 程 中 用 训练 集 不 断 训练 的 同时 也 将 模型 在 验 
证 集 上 做 应 用 作为 一 个 测试 过 程 。 在 训练 集 上 的 Loss 是 在 不 断 降低 的 而 准确 率 Accuracy 是 
在 不 断 升 高 的 ， 因 为 训练 中 会 为 了 降低 Loss 不 断 调整 ， 学 到 更 多 更 深层 的 信息 。 但 是 在 测 
试 集 上 你 几乎 一 定 会 看 到 一 种 现象 ， 就 是 Loss 在 下 降 到 一 定 程度 之 后 反而 开始 攀升 ， 或 者 
准确 率 Accuracy 在 上 涨 到 一 定 程度 后 开始 下 降 。 这 个 拐点 的 位 置 就 是 过 拟 合 的 开始 ， 请 注 
意 在 这 一 点 开始 的 时 候 终止 训练 。 


5.5 “小结 


到 目前 为 止 我 们 已 经 学 会 了 在 TensorFlow 环境 下 实现 一 个 手写 数字 识别 功能 的 简易 神 
经 网 络 了 。 并 且 在 神经 网 络 训练 中 的 各 种 基础 理论 和 最 为 核心 的 问题 都 已 经 接触 到 了 ， 怎 
么 样 ， 不 难 吧 ? 基本 高 中 以 前 的 知识 就 够 用 了 。 

这 才 是 一 款 开 骨 的 餐 前 小 菜 ， 大 菜 还 在 后 面 。 下 面 我 们 还 会 再 多 接触 几 种 不 同 的 网 络 
结构 ， 这 些 网 络 结构 也 是 形形色色 ， 大 部 分 都 是 来 自 一 些 国外 著名 高 校 实 验 室 或 者 先进 的 
科研 团体 在 研究 过 程 中 通过 不 断 尝试 发 现 的 一 些 新 的 网 络 连 接 方式 ， 在 不 同 的 领域 会 有 一 
些 格外 良好 的 效果 。 
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在 前 面 我 们 已 经 提 过 了 ， 神 经 网 络 不 是 一 个 具体 的 算法 ， 而 是 一 种 模型 构筑 的 思路 或 
者 方式 。 在 这 个 思路 或 者 方式 的 指引 下 ， 我 们 已 经 成 功 地 构筑 了 BP 网 络 。 这 种 线性 分 类 器 
后 面 直接 跟随 激励 函数 形成 神经 元 ， 然 后 前 后 首尾 相 接 形成 网 络 的 方式 应 该 说 并 不 难 理解 。 

不 过 随 着 神经 网 络 技术 的 进化 与 发 展 ， 我 们 慢 慢 也 发 现 了 BP 网 络 的 局 限 性 。 所 以 才 想 
到 是 否 可 以 设计 一 些 新 的 神经 元 的 逻辑 结构 ， 或 者 连接 方式 来 做 个 补充 。 卷 积 网 络 就 是 一 
种 很 有 益 的 尝试 ， 而 且 这 一 尝试 就 一 发 不 可 收拾 ， 到 现在 为 止 ， 绝 大 多 数 在 模式 识别 应 用 
中 表现 好 的 网 络 都 在 一 定 程度 上 借鉴 了 卷 积 神经 网 络 的 关键 组 件 。 这 一 章 我 们 就 来 看 看 卷 
积 网 络 究竟 有 什么 厉害 的 地 方 。 


6.1 与 全 连接 网 络 的 对 比 


我 们 在 前 两 章 中 已 经 看 到 了 BP 网 络 的 工作 原理 。 在 我 们 举 的 例子 中 ， 这 些 神 经 元 之 间 
彼此 连接 的 方式 有 一 个 特点 ， 那 就 是 每 一 个 神经 元 节点 的 输入 都 来 自 于 上 一 层 的 每 一 个 神 
经 元 的 输出 。 这 种 方式 就 叫做 全 连接 网 络 ( full connect network) 一 一 整个 网 络 的 每 一 层 都 
是 以 这 种 “全 连接 ”方式 完成 的 。 当 然 了 ，BP 网 络 也 可 以 不 是 全 连接 的 。 后 面 我 们 还 会 接 
触 到 一 些 网 络 不 是 全 连接 的 ， 或 者 只 有 个 别 层 是 全 连接 的 。 

全 连接 网 络 的 好 处 从 它 的 连接 方式 上 看 是 每 个 输入 维度 的 信息 都 会 传播 到 其 后 任何 一 
个 节点 中 去 ， 会 最 大 程度 地 让 整个 网 络 中 的 节点 都 不 会 “ 漏 掉 ”这 个 维度 所 贡献 的 因素 。 
不 过 它 的 缺点 更 为 明显 ， 那 就 是 整个 网 络 由 于 都 是 “全 连接 ”方式 ， 所 以 w 和 4b 格外 多 ， 
这 就 使 得 训练 过 程 中 所 要 更 新 的 权重 非常 多 ， 整 个 网 络 训练 的 收敛 也 会 非常 慢 。 对 于 像 图 
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片 识别 这 种 输入 像素 动 辑 数 百 万 维度 (以 像素 点 为 单位 ) 的 分 类 人 处理， 就 会 变 得 不 可 行 ， 因 
为 根本 找 不 到 计算 速度 能 够 满足 需要 的 处 理 器 。 不 过 好 在 前 辈 中 还 是 大 神 多 ， 多 亏 他 们 发 
明了 卷 积 神经 网 络 (convolutional neural network, CNN). 

卷 积 神经 网 络 同样 是 一 种 前 馈 神 经 网 络 ， 它 的 神经 元 可 以 响应 一 部 分 覆盖 范围 内 的 周 
围 单元 ， 对 于 大 规模 的 模式 识别 都 是 有 着 非常 好 的 性 能 表现 的 ， 尤 其 是 对 大 规模 图 形 图 像 
处 理 效率 极 高 ， 这 也 是 大 家 热衷 研究 这 类 网 络 的 重要 原因 。 

早 在 20 世纪 60 年 代 ， 美 国 神经 生物 学 家 Hubel 和 Wiesel 在 研究 猫 脑 皮 层 中 用 于 局 部 
敏感 和 方向 选择 的 神经 元 时 发 现 其 独特 的 网 络 结构 可 以 有 效 地 降低 反馈 神经 网 络 的 复杂 性 ， 
继而 提出 了 卷 积 神经 网 络 。 现 在 ，CNN 已 经 成 为 众多 科学 领域 的 研究 热点 之 一 ， 特 别 是 在 
模式 分 类 领域 ， 由 于 该 网 络 避免 了 对 图 像 的 复杂 前 期 预 处 理 ， 可 以 直接 输入 原始 图 像 ， 因 
而 得 到 了 更 为 广泛 的 应 用 。 日 本 人 福 岛 邦彦 ( Kunihiko Fukushima) 在 20 个 世纪 90 年 代 提 
出 的 新 识别 机 是 卷 积 神经 网 络 的 第 一 个 实现 网 络 。 随 后 ， 更 多 的 科研 工作 者 对 该 网 络 进行 
了 改进 。 

卷 积 网 络 有 两 个 比较 大 的 特点 。 

其 一 : 卷 积 网 络 有 至 少 一 个 卷 积 层 ， 用 来 提取 特征 。 

其 二 : 卷 积 网 络 的 卷 积 层 通过 权 值 共享 的 方式 进行 工作 ， 大 大 减少 权 值 w 的 数量 ， 使 
得 在 训练 中 在 达到 同样 识别 率 的 情况 下 收敛 速度 明显 快 于 全 连接 BP 网 络 。 

卷 积 网 络 主要 用 来 识别 位 移 、 缩 放 及 其 他 形式 扭曲 不 变性 的 二 维 图 形 。 由 于 它 的 特征 
检测 层 通过 训练 数据 进行 学 习 ， 所 以 在 使 用 卷 积 网 络 时 ， 避 免 了 显 式 的 特征 抽取 ， 而 隐 式 
地 从 训练 数据 中 进行 学 习 ; 再 者 由 于 同一 特征 映射 面 上 的 神经 元 权 值 相同 ， 所 以 网 络 可 以 
并 行 学 习 ， 这 也 是 卷 积 网 络 相 对 于 神经 元 彼此 相连 网 络 的 一 大 优势 。 卷 积 神经 网 络 以 其 局 
部 权 值 共享 的 特殊 结构 在 语音 识别 和 图 像 处 理 方面 有 着 独特 的 优越 性 ， 其 布局 更 接近 于 实 
际 的 生物 神经 网 络 ， 权 值 共享 降低 了 网 络 的 复杂 人 性， 特别 是 多 维 输入 向 量 的 图 像 可 以 直接 
输入 网 络 这 一 特点 避免 了 特征 提取 和 分 类 过 程 中 复杂 的 数据 重建 。 后 面 我 们 会 有 具体 的 示 
例 来 说 明 它 工作 的 流程 。 
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为 了 了 解 卷 积 神经 网 络 的 实质 ， 我 们 简单 说 说 卷 积 是 什么 。 

在 泛 函 分 析 中 ， 卷 积 (convolution) 是 一 种 函数 的 定义 。 它 是 通过 两 个 函数 了 和 О 生成 
第 三 个 函数 的 一 种 数学 算 子 ， 表 征 函 数 5 9 经 过 翻转 和 平移 的 重 又 部 分 的 面积 。 

在 通信 工程 领域 ， 卷 积 是 常用 的 一 种 计算 方法 ,我们 通常 用 到 卷 积 也 是 和 傅 里 叶 变 换 
有 关系 。 大 家 在 知 乎 上 去 查找 的 话 ， 可 以 找到 很 多 对 卷 积 的 解释 ， 有 不 少 不 仅 形象 还 通俗 
易 慌 ， 大 家 有 兴趣 自己 去 找 吧 ， 我 这 边 用 一 个 相对 简便 的 方法 做 解释 了 。 

卷 积 的 数学 定义 是 这 样 的 ; 
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W(x) = f(x)* во) = | Ово à 


积分 推导 咱们 就 不 摘 了 ， 我 们 只 解释 一 下 积分 式 所 表示 的 含义 。 符 号 “| ”就 是 积分 符 
号 ， 比 如 : 
[f/x 
这 个 表达 式 的 含义 是 指 这 样 一 个 值 ， 这 个 值 等 于 函数 图 像 fo 与 x 轴 围 成 的 图 形 的 面积 。 
这 里 + oe MI — % 所 表示 的 是 这 个 图 形 在 x 轴 方 向 上 的 限制 边界 , 那 oe Ail — % 就 表示 没有 
边界 限制 了 。 
“1/6*exp((-(x^2))/10)” 的 图 表 “1/6*exp((-(x^2))/10)” 的 图 表 


к 659792112 y 000214414 








如 果 换 个 表达 式 : 


| 

则 是 表示 Дх) 与 x 轴 围 成 的 图 形 还 要 再 “ 切 两 刀 "， 一 刀 在 x= -2， 一 刀 在 x*=3。 这 样 
切 完 之 后 实际 上 表示 的 含义 就 是 fx)、y=0、x=-2、x=3 这 四 条 直线 或 曲线 所 围 成 的 面积 了 ， 
这 个 含义 应 该 很 简单 唆 。 好 ， 回 来 再 看 卷 积 表达 式 的 含义 。 

那么 我 们 看 到 的 这 个 积分 式 里 面 AD)g(x-) EAT AE? HRR, ЛО 先 不 动 ，g(-0 
相当 于 eo 函数 的 图 像 沿 着 ? 轴 (1=0) 做 了 一 次 翻转 。g(x-0) 相当 于 gN) 的 整个 图 像 沿 
着 ? 轴 进 行 了 平移 ， 向 右 平移 了 x 个 单位 。 

做 过 这 个 变换 之 后 ， 可 以 想象 这 一 共 是 有 两 个 函数 ， 一 个 是 固定 的 函数 ， 一 个 是 滑动 
的 函数 ， 求 它们 相 乘 之 后 围 起 来 的 面积 ,滑动 的 变量 就 是 x。 

我 们 看 下 图 所 示 : 
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KD) 就 是 一 个 三 角 ， 在 第 二 象限 是 一 条 过 (—1, 0) 和 (0, 1) 点 的 线段 ， 在 第 一 象限 是 一 条 
过 (0, 1) 和 (1, 0) 点 的 线段 。 

PAB g(t) 是 一 个 正方 的 脉冲 波 ， (YE [1,2] 上 有 定义 ， 在 这 段 区 间 里 g(D)=t 函数 
8G- 站 是 左 侧 的 这 个 做 过 翻转 的 图 形 ， 图 示 中 还 分 别 有 x= -2，x=-1，x=0，x=1，x=2 时 
的 图 像 。 





我 们 观察 到 ， 在 这 个 不 定 积分 完毕 后 ,会 形成 两 个 函数 伙 加 的 部 分 ， 其 中 x 是 一 个 变 
量 。 假 设 x 为 0, 或 者 我 们 当 x 压 根 不 存在 ， 那么 就 是 ft) 和 8(-0 这 两 个 函数 相 乘 后 和 
у=0 (+ 轴 ) 围 成 的 面积 。 当 x 出现 后 ,x 是 帮 着 g(-t) 图 像 左右 平移 的 ， 刚 刚 我 们 也 看 到 这 
个 图 像 的 变化 过 程 了 ,那么 会 变 成 什么 样 ? 简单 说 ， 这 个 函数 h(x) 的 值 就 是 求 一 个 面积 和 
的 关系 ， 而 这 个 所 说 的 面积 就 是 函数 有 i?) 和 g(x?) 相 乘 后 的 曲线 和 y=0 Cri) 围 成 的 面 
A, 其 中 自 变 量 是 x。 在 随 着 x 变化 的 移动 过 程 中 ， 由 于 g(x-?) 移动 产生 的 h(x) 的 对 应 变 
化 就 是 整个 卷 积 公 式 的 意义 了 个 移动 中 用 x 进行 取样 的 过 程 ， 或 者 说 特征 提取 。 

如 果 觉 得 这 个 东西 理解 不 了 ， 或 者 实在 想不到 有 什么 用 ， 也 没有 关系 ， 因 为 对 于 工学 
层面 的 应 用 来 说 ， 卷 积 本 身 的 含义 以 及 推导 我 们 在 生产 生活 中 通常 没有 机 会 接触 。 大 家 在 
脑海 里 就 形成 一 个 移动 过 程 中 做 乘积 的 印象 就 足够 了 。 





63 Ж 
当 我 们 能 够 理解 卷 积 的 含义 之 后 ， 那 理解 卷 积 核 就 会 简单 多 了 ， 因 为 我 们 只 要 理解 它 
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是 在 滑动 中 去 提取 特征 就 足够 了 。 
我 们 先 看 卷 积 核 的 表达 方式 ， 它 的 表达 式 为 
fix)=wx+b 
可 能 有 人 会 问 是 不 是 写 错 了 ， 这 不 是 卷 积 核 ， 这 就 是 一 个 普通 的 神经 元 的 线性 处 理 的 部 分 。 
其 实 你 这 么 看 倒是 也 不 能 算 错 ， 因 为 从 计算 逻辑 的 角度 来 看 还 真 差不多 。 





Convoluted Feature 





( 见 彩 插 ) 


我 们 先 想象 这 里 有 一 张 图 片 ， 图 片 有 5 x5 一 共 25 个 像素 点 ， 每 个 像素 点 只 有 1 和 0 
两 种 取 值 。 当 然 了 ， 这 种 图 别 说 是 在 自然 界 ， 就 是 我 们 精心 设计 也 很 难 设计 出 来 ， 因 为 设 
计 出 来 我 也 不 知道 用 它 来 表示 什么 玩意 儿 比 较 好 ， 我 们 权 且 假设 有 这 样 一 种 图 片 。 那 么 提 
取 这 样 的 一 种 图 的 特征 ， 我 们 可 以 先 随便 设计 一 个 卷 积 核 来 看 看 到 底 会 产生 什么 结果 ， 我 
们 设计 一 个 特别 简单 的 卷 积 核 。 

w=[1, 1, 1, 1, 1, 1, 1, 1, 1], b=[0] 

w 由 9 个 1 构成 ,在 这 个 场景 里 ， 我们 指 图 中 黄色 部 分 的 这 个 3x3 的 小 方 框 ， 从 左 到 
右 从 上 到 下 的 这 9 个 点 作为 x 向量， 挨个 与 w 相 乘 完成 内 积 操 作 ， 并 与 5b 相 加 。 这 个 过 程 
就 是 这 样 了 : 

Дх)=1х1+1х1+1х1+1Х0+1Х1+1Х1+1Х0+1Х0+1Хх1+0=6 

那么 左上 角 的 这 个 黄色 小 方 框 就 会 输出 一 个 6， 我 们 把 6 单独 存在 一 个 存储 空间 里 ， 这 
个 存储 空间 就 叫做 这 个 卷 积 层 的 Feature Map, ， 也 就 是 图 中 所 示 的 Convoluted Feature 这 个 
部 分 。 我 们 看 在 这 样 一 个 操作 下 ，9 个 点 的 信息 被 压缩 成 了 一 个 点 ， 当 然 这 肯定 是 有 损 压 缩 
T, 还原 肯 定 是 还 原 不 回去 了 。 不 过 确实 在 这 个 过 程 中 有 这 样 一 个 信息 抽象 的 过 程 ， 大 家 
请 注意 ， 这 个 抽象 过 程 就 是 特征 的 提取 。 

我 们 把 这 个 小 黄 方 框 的 操作 继续 从 左 到 右 ， 从 上 到 下 每 次 移动 一 个 方 格 ， 就 相当 于 前 
面 我 们 说 的 ft?) 和 g(x-?) 两 个 函数 通过 x 变化 来 滑动 一 样 做 这 样 一 个 卷 积 操作 ， 那 么 右 侧 的 
Feature Map 的 每 个 点 的 值 也 都 能 对 应 产生 结果 了 。 根 据 我 们 设计 的 卷 积 核 的 w A b ВИН, 
剩 下 的 8 个 输出 值 应 该 分 别 是 : 7、6、4、7、7、4、6、6。 这 样 一 来 25 个 点 的 信息 量 就 被 
压缩 成 了 9 个 点 ， 完 成 了 特征 提取 和 压缩 两 个 功能 。 

这 就 是 卷 积 层 工 作 的 大 致 方式 。 至 于 w 和 4b， 在 初始 化 之 后 ， 也 是 通过 一 轮 一 轮 的 训练 ， 
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在 降低 损失 函数 的 目的 下 不 断 变化 而 学 习 到 的 ， 而 不 是 我 们 指定 出 来 的 。 

在 卷 积 核 的 ftx)=wx+b 输出 后 还 可 能 会 跟着 一 个 激励 函数 而 且 也 一 般 会 定义 一 个 激励 
函数 跟随 其 后 ， 现 在 的 CNN 网 络 中 的 激励 函数 非常 喜欢 用 ReLU。 不 过 你 也 会 发 现在 实际 
工作 中 ， 可 能 会 用 别 的 激励 函数 跟 在 卷 积 核 后 面 进行 工作 ,或 者 不 用 激励 函数 。 理 由 通常 
都 是 为 了 在 一 些 特殊 的 场景 中 有 更 好 的 表现 ， 共 性 我 还 没 总 结 出 来 ， 不 过 ReLU 作为 激励 
函数 的 场合 应 该 说 是 最 常见 的 。 

当然 了 ， 卷 积 核 中 的 w、b 需要 通过 训练 来 得 到 ， 是 模型 中 非常 重要 的 参数 。 从 物理 意 
义 上 去 理解 ， 大 概 是 这 种 感觉 ， 前 面 输入 过 来 的 向 量 ， 用 这 “一 眼 ” 看 过 去 对 于 视野 中 不 
同位 置 的 关注 程度 或 者 采纳 程度 是 不 同 的 ， 而 这 个 关注 程度 或 者 采纳 程度 就 用 w、b 来 量化 
表示 。 


6.4” 卷 积 层 其 他 参数 


在 卷 积 核对 前 面 输入 的 这 一 层 数据 向 量 进行 扫描 的 时 候 ， 还 有 几 个 别 的 参数 需要 注意 ， 
一 个 是 Padding (填充 )， 一 个 是 Striding ( 步 幅 )， 这 个 参数 的 含义 很 形象 。 

先 说 Padding, Padding 是 指 用 多 少 个 像素 单位 来 填充 输入 图 像 (向 量 ) 的 边界 。 就 像 图 
上 所 画 ， 在 这 四 周 的 区 域 里 都 进行 Padding， 通 常 都 是 填充 0 值 。 当 然 一 般 不 会 有 像 我 们 图 
上 夯 的 这 么 大 比例 的 Padding T, fk 800 x 600 的 图 过 卷 积 层 的 时 候 ， 能 在 四 周 各 Padding 
上 5 到 10 个 单位 就 不 少 了 。 


Padding 





Padding 


Padding 的 用 途 大 概 可 以 理解 为 两 种 目的 。 

目的 1 : 保持 边界 信息 。 因 为 如 果 不 加 Padding 的 话 ， 最 边缘 的 像素 点 信息 其 实 仅仅 被 
卷 积 核 扫 描 了 一 遍 ， 而 图 像 中 间 的 像素 点 信息 会 被 扫描 多 遍 ， 在 一 定 程度 上 等 于 降低 了 边 
界 上 信息 的 参考 程度 。Padding 后 就 可 以 在 一 定 程度 上 解决 这 个 问题 。 在 实际 处 理 的 过 程 中 
肯定 是 Padding T — 0 值 以 后 ， 再 从 Padding 后 的 新 边界 开始 扫描 。 

目的 2 : 如 果 输 入 的 图 片 尺寸 有 差异 ， 可 以 通过 Padding 来 进行 补 齐 ,使 得 输入 的 尺寸 
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一 致 ， 以 免 频繁 调整 卷 积 核 和 其 他 层 的 工作 模式 。 

Stride 就 是 步 幅 ， 在 卷 积 层 工作 的 时 候 ，Stride 可 以 理解 为 每 次 滑动 的 单位 。 比 如 刚刚 
这 个 例子 ， 我 们 用 的 就 是 Stride=1 的 情况 一 一 每 次 只 滑动 一 个 单位 。 在 实际 工作 中 Stride=1 
的 使 用 场景 很 多 ， 因 为 它 对 于 采用 的 细密 程度 保证 得 最 好 。 当 然 Stride 也 可 以 取 别 的 值 ， 
比如 Stride-3, ， 那 么 扫描 的 时 候 就 不 是 每 次 移动 1 个 像素 ， 而 是 每 次 移动 3 个 像素 了 。 这 种 
方式 直观 上 想 一 想 就 会 觉得 比较 “粗糙 "， 因 为 跳 过 的 像素 行列 的 信息 明显 扫描 的 次 数 降低 
了 。 不 过 好 处 也 显而易见 ， 就 是 因为 处 理 的 次 数 变 少 了 ， 所 以 卷 积 层 在 扫描 的 时 候 工 作 会 
变 快 ， 这 可 能 是 唯一 的 好 处 。 在 设计 网 络 的 时 候 ，Stride 取 多 少 合适 需要 经 过 测试 ， 先 设置 
Stride=1， 如 果 工 作 状况 已 经 很 理想 了 ， 而 希望 通过 加 大 Stride 来 获得 一 些 性 能 的 提升 或 者 
存储 量 的 减 小 ,那么 可 以 逐步 尝试 调整 为 Stride=2 或 其 他 值 。 一 切 都 以 实测 结果 为 准 ， 到 
目前 为 止 这 个 值 究竟 应 该 设 定 为 多 少 还 没有 一 个 确切 的 有 效 的 判断 方法 。 


6.5 WE 


池 化 层 (Pooling Layer， 或 称 池 层 ) 是 在 一 些 旧 有 的 CNN 网 络 中 喜欢 设计 的 一 层 处 理 
层 。 池 化 层 的 作用 实际 上 对 Feature Map 所 做 的 数据 处 理 又 进行 了 一 次 所 谓 的 池 化 处 理 。 我 
们 具体 来 看 看 这 个 池 化 处 理 都 做 了 些 什 么 吧 。 

常见 的 池 化 层 处 理 有 两 种 方式 : 一 种 叫 Max Pooing， 一 种 叫 Mean Pooling (+H "4 
Average Pooling)， 顾 名 思 义 ， 一 个 做 了 最 大 化 ， 一 个 做 了 平均 化 。 除 此 之 外 还 有 Chunk- 
Max Pooling, Stochastic Pooling 等 其 他 一 些 池 化 手段 。 





Max Pooling 就 是 在 前 面 输出 过 来 的 数据 上 做 一 个 取 最 大 值 的 处 理 ， 比 如 以 Stride-2 
的 2x2 为 Мах Pooling Filter (滤波 器 ， 我 们 就 理解 为 跟 卷 积 类 似 的 特征 处 理 就 好 了 ) 之 
后 ,左上 角 就 出 现 了 这 样 的 变化 。 临 近 的 4 个 点 取 一 个 最 大 值 成 为 Max Pooling 层 中 的 储 
存 值 。 
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Mean Pooling 就 是 在 前 面 输出 过 来 的 数据 上 做 一 个 取 平 均值 的 处 理 ， 比 如 以 Stride-2 
的 2x2 Jy Mean Pooling Filter 之 后 ， 左 上 角 就 出 现 了 这 样 的 变化 。 临 近 的 4 个 点 取 平 均值 
输出 到 Mean Pooling 中 保存 起 来 ， 如 图 所 示 。 

一 般 来 说 ， 池 化 层 被 认为 有 这 样 几 个 功能 。 

第 一 ， 它 又 进行 了 一 次 特征 提取 ， 所 以 肯定 是 能 够 减 小 下 一 层 数据 的 处 理 量 的 。 

第 二 ， 由 于 这 个 特征 的 提取 ， 能 够 有 更 大 的 可 能 性 进一步 获取 更 为 抽象 的 信息 ， 从 而 
防止 过 拟 合 ， 或 者 说 提高 一 定 的 泛 化 性 。 

第 三 ， 由 于 这 种 抽象 性 ， 所 以 能 够 对 输入 的 微小 变化 产生 更 大 的 容忍 ， 也 就 是 保持 其 
不 变性 。 这 里 的 容忍 包括 图 形 的 少量 平移 、 旋 转 以 及 缩放 等 变化 。 

池 化 层 在 CNN 网 络 中 不 是 一 个 必需 的 组 件 ， 一 些 新 的 CNN 网 络 在 设计 的 时 候 也 没有 
池 化 层 出 现 ， 这 一 点 请 大 家 注意 。 


6.6 ”典型 CNN 网 络 


我 们 在 前 面 已 经 了 解 了 很 多 有 关 卷 积 网 络 中 各 个 零件 的 概念 ， 例 如 卷 积 、 卷 积 核 、 池 
化 层 ， 以 及 卷 积 网 络 中 使 用 的 激励 函数 ， 现 在 我 们 要 把 它们 拼接 起 来 了 。 

目前 世界 上 比较 新 的 优秀 的 网 络 由 于 计算 能 力 的 提升 而 变 得 越 来 越 复 杂 ， 有 很 多 网 络 
甚至 出 现 了 “杂交 ”的 特点 一 一 也 就 是 说 网 络 本 身 有 很 多 层 ， 而 这 些 层 的 设计 各 异 ， 使 得 
整个 网 络 不 再 体现 出 典型 的 纯粹 的 全 连接 网 络 、 卷 积 网 络 或 其 他 网 络 的 独 有 特点 。 用 现在 
时 碑 的 词 来 说 ， 这 叫 混搭 。 那 我 们 还 是 先 看 一 个 相对 比较 典型 的 卷 积 网 络 吧 。 

这 个 网 络 是 著名 的 Visual Geometry Group 在 2015 年 发 布 的 卷 积 网 络 。Visual Geometry 
Group 是 隶属 于 英国 牛津 大 学 工程 科学 系 的 一 个 研究 可 视 化 相关 技术 的 组 织 。 这 个 网 络 被 
命名 为 VGG-16, УСО 就 是 Visual Geometry Group 的 缩写 ，16 指 的 是 其 中 有 16 个 带 有 参 
数 的 网 络 层 。VGG-16 是 一 个 带 有 完整 的 卷 积 层 、 池 化 层 、 全 连接 层 的 神经 网 络 。 
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224x224x3 224x224x64 






77 


Ё convolution* ReLU 

Ё max pooling 

器 fully connected+ReLU 
SOFTMAX 





如 上 图 所 示 ， 这 就 是 一 个 VGG-16 的 结构 示意 图 ， 一 张 图 从 左 向 右 逐 层 通过 卷 积 核 和 
池 化 层 最 终 产生 分 类 输出 的 流程 概要 。VGG-16 是 一 个 公开 的 模型 ， 这 里 叫 “ 开 源 ” 也 不 
合适 ， 因 为 就 模型 来 说 ， 它 只 描述 数据 进出 处 理 的 逻辑 关系 ， 与 代码 和 语言 无 关 。 一 张 图 
片 从 左 侧 输入 进去 经 过 64 个 不 同 的 3 x 3 的 卷 积 核 ， 每 次 Stride=1 的 挪移 步 长 ， 生 成 了 64 
个 小 尺寸 的 “图 片 ”( 或 者 应 该 称 为 Feature Map 更 为 合适 )， 把 这 64 个 小 尺寸 的 图 片 “ 拼 
接 ” 在 一 起 ， 又 通过 64 个 3x3 的 卷 积 核 生成 了 后 一 层 的 Feature Map。 然 后 经 过 一 个 Мах 
Pooling 层 来 做 池 化 。 

然后 这 个 Max Pooling 中 的 信息 又 被 当做 一 个 “图 片 ” 向 后 输入 ， 通 过 128 个 3x3 
的 卷 积 核 进一步 提取 特征 …… 这 样 一 层 一 层 输入 到 最 后 。 在 这 个 过 程 中 可 以 看 到 卷 积 核 
数量 是 在 逐步 增多 的 ，64 个 、128 个 、256 个 、512 个 ， 而 每 个 卷 积 核 提 取 过 后 的 信息 所 
占用 的 空间 越 来 越 小 ， 这 个 过 程 就 是 一 个 特征 提取 的 过 程 。 在 最 后 有 一 个 1000 个 节点 的 
SOFTMAX 层 来 做 分 类 使 用 。 训 练 的 过 程 中 同样 是 把 一 种 损失 函数 Loss(w) 描述 成 为 各 个 卷 
积 核 中 权重 w 的 函数 ， 然 后 进行 凸 优化 来 找到 极 值 点 ， 这 一 个 过 程 与 BP 网 络 大 同 小 异 。 

除 此 之 外 ，VGG 还 发 布 过 一 个 名 叫 VGG-19 的 网 络 模型 ， 顾 名 思 义 ， 里 面 含 有 19 个 
带 有 参数 的 网 络 层 。 





近年 来 在 越 来 越 多 的 网 络 模型 中 放 人 了 多 个 卷 积 层 ， 能 够 在 网 络 深度 增加 的 过 程 中 加 
快 收敛 速度 并 且 可 以 让 网 络 有 更 好 的 泛 化 特性 。 
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上 图 是 2014 年 发 表 的 AlexNet， 也 是 大 名 淆 易 ， 前 面 的 3 个 卷 积 层 ，2 个 池 化 层 ，2 个 
全 连接 层 ， 一 个 1000 个 节点 的 SOFTMAX 层 。 

GoogleNet 也 同样 是 2014 年 发 表 的 一 个 著名 的 网 络 ， 它 的 深度 已 经 达到 了 22 层 。 和 以 
前 的 众多 网 络 不 一 样 ， 这 里 面 引入 了 一 种 全 新 的 结构 ， 结 构 的 名 称 叫 做 Inception?, ， 有 个 同 
名 的 电影 被 译作 《 盗 梦 空 间 》 相信 大 家 已 经 很 熟悉 了 。 不 知道 为 什么 网 络 结构 的 发 明 人 会 
对 这 样 虚幻 的 名 字 情 有 独 钟 。 





在 这 个 结构 中 可 以 看 到 前 面 输入 过 来 的 向 量 会 在 这 一 层 上 展开 成 为 多 个 不 同 卷 积 核 处 
理 的 并 列 结构 ， 这 样 可 以 在 一 定 程度 上 加 大 下 一 层 输入 的 信息 量 。 其 中 3x3 和 5x5 的 卷 
积 层 会 大 大 提升 分 类 识别 的 抽象 能 力 ( 在 一 定 程度 内 卷 积 核 越 大 这 个 特点 就 相对 越 明显 )。 
Inception 结构 的 引入 大 大 增加 了 网 络 的 宽度 和 深度 ， 使 得 网 络 的 信息 容纳 能 力 变 强 ， 而 使 
用 Inception 结构 的 网 络 比 没有 使 用 该 结构 网 络 的 性 能 要 高 2 到 3 fir. 


Super Vision 

Super Vision Imagenet 22k 
Clarifai 

Clarifai ^ Imagenet 22k 





GoogLeNet 


{E ILSVRC?2014 Classification Challenge 的 比赛 中 ，GoogleNet 有 着 骄 人 的 战绩 ， 
top-5 错误 率 仅 有 6.67%。ILSVRC 2014 的 分 类 任务 有 1000 个子 类 ，120 万 训练 图 像 ，5 万 
验证 图 像 ，10 万 测试 图 像 。 


© Inception 意 为 “开端 "、“ 初 期 ”。 
© ImageNet Large Scale Visual Recognition Competition (ILSVRC ) 。 
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除 此 之 外 ， 每 年 在 世界 各 地 还 在 诞生 着 各 式 各 样 的 卷 积 网 络 ， 或 者 只 是 个 别 层 有 卷 积 
核 参与 计算 的 网 络 结构 。 最 新 的 相关 消息 请 在 搜索 引擎 上 去 查找 吧 ， 相 信 会 更 多 更 新 。 


6.7 图 片 识别 


卷 积 神经 网 络 在 近 些 年 来 ， 对 于 大 样本 集训 练 场景 下 的 分 类 体现 出 越 来 越 好 的 效果 ， 
也 就 是 比较 好 的 泛 化 能 力 。 

图 片 、 音 频 、 视 频 、 大 段 的 文字 描述 等 这 些 模式 识别 相关 的 应 用 场景 用 以 往 传 统 的 机 
器 学 习 应 用 技术 进行 处 理 效果 都 不 甚 理想 。 但 是 卷 积 神经 网 络 处 理 这 一 类 的 问题 有 得 天 独 
厚 的 能 力 ， 为 什么 呢 ? 因为 它 有 卷 积 核 这 种 东西 作为 法 宝 。 





区 别 不 大 应 该 
DL LU 


( 见 彩 插 ) 


先 说 人 类 对 于 一 张 照片 的 认 知 ,或 者 对 于 另外 一 个 人 的 长 相 认 知 。 我 们 不 会 因为 照片 
的 尺寸 进行 了 同等 的 缩放 而 判断 这 张 照片 表示 不 同 的 事物 ， 我 们 同样 也 不 会 因为 一 个 人 的 
肤色 有 了 深浅 的 变化 ， 戴 不 戴 眼镜 ， 或 发 型 有 了 细微 变化 就 判断 这 是 另外 的 一 个 人 。 为 什 
ANE? 我们 都 有 这 样 的 体会 ， 一 个 事物 一 旦 被 我 们 认识 后 ， 只 要 它 发 生变 化 的 程度 不 足以 
改变 我 们 对 它 认 知 的 判断 ， 那 么 我 们 就 仍旧 可 以 对 它 做 “维持 原 判 ”的 认 知 。 换 名 话说， 
这 是 一 种 对 于 细微 变化 的 免疫 作用 ， 或 者 说 是 对 细微 变化 的 不 敏感 性 。 

卷 积 网 络 中 所 使 用 的 卷 积 核 在 对 输入 向 量 进行 特征 提取 的 过 程 是 一 个 把 高 维 向 量 映 身 
成 为 低 维 向 量 的 过 程 ， 也 是 一 种 有 损 压 缩 ， 这 种 压缩 过 程 的 特点 在 我 们 了 解 了 卷 积 核 工作 
原理 后 会 得 知 一 一 卷 积 核 提 供 了 一 种 前 一 层 输 入 向 量 (样本 或 Feature Map) 到 后 一 层 输出 
向 量 ( Feature Map) 的 刺激 能 力 。 而 在 卷 积 核 滑动 的 过 程 中 我 们 发 现 有 一 个 特性 ， 那 就 是 
个 别 向 量 值 的 变化 对 于 刺激 的 结果 影响 是 极为 有 限 的 。 这 是 一 种 用 科学 方法 、 通 过 量化 的 
手段 去 表示 敏感 程度 的 过 程 ， 而 且 这 个 量化 的 程度 是 通过 训练 得 到 的 。 这 简直 太美 妙 了 。 
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н 区别 不 大 应 该 
HLS 


* 





当 一 幅 图 被 卷 积 核 扫 描 后 产生 一 张 Feature Map A， 如 果 我 们 改变 这 张 图 的 少量 像素 ， 
无 论 是 改变 其 颜色 还 是 改变 线条 ， 又 或 者 是 涂鸦 几 点 ， 甚 至 是 进行 微小 的 角度 旋转 ， 重 新 
经 过 卷 积 核 扫描 产生 的 Feature Map B 中 ， 这 些 向 量 值 改变 的 很 少 ， 即 便 是 旋转 这 样 的 动作 
只 要 不 是 太 夸 张 ， 问 量 值 改 变 的 幅度 也 非常 有 限 。 而 在 多 层 卷 积 核 扫 描 后 ， 这 种 差异 在 网 
络 较 深 的 层面 已 经 非常 不 敏感 了 。 就 好 像 被 打 过 马赛 克 的 图 片 ， 即 便 之 前 有 少许 差异 ， 但 
是 在 打 过 马赛 克 后 这 些 差 异 中 区 别 不 大 的 成 分 都 会 抹 去 ， 进 而 对 后 面 层 的 网 络 产生 近似 的 
刺激 。 





如 果 你 试 着 将 Feature Map 中 的 内 容 进 行 可 视 化 的 话 ， 你 将 会 看 到 类 似 这 样 的 一 些 光 
斑 。 看 上 去 是 不 是 非常 模糊 ? 这 就 是 我 们 刚刚 说 的 这 种 好 像 是 打 过 马赛 克 的 效果 ， 其 实 也 
就 是 一 种 特征 提取 或 者 抽象 过 的 信息 表示 。 

这 意味 着 什么 呢 ? 至 少 可 以 得 到 以 下 这 样 几 个 观点 。 

1) 少量 的 噪声 、 论 误 对 深度 卷 积 神经 网 络 的 分 类 影响 是 非常 有 限 的 ， 它 具有 更 强 的 容 
错 能 力 。 

2) 由 于 卷 积 神经 网 络 这 样 一 种 特性 ， 也 使 得 其 泛 化 性 更 好 ， 因 为 即便 分 类 对 象 跟 训练 
样本 库 的 特征 有 一 定 差异 ， 这 种 “模糊 化 ”处 理 的 结果 会 使 得 它们 在 较 深 的 网 络 中 有 类 似 
的 刺激 结果 。 
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所 以 ， 从 这 种 原理 分 析 上 来 看 ， 我 们 可 以 发 现 神经 网 络 的 工作 原理 更 像 是 在 “记忆 ”， 
“记忆 ”一 个 “大 概 ”的 印象 ， 而 不 像 是 “思考 ”或 者 “推理 "， 对 不 对 ? 你 在 训练 样本 中 
直 白 地 告诉 我 的 样 例 ， 我 会 很 好 地 记 下 来 ， 并 能 够 让 它 有 一 定 的 泛 化 性 ， 但 是 复杂 的 、 带 
有 一 定 分 析 和 判断 的 能 力 ， 神 经 网 络 自身 是 不 会 有 的 。 好 了 ， 听 了 这 么 多 理论 层面 的 分 析 ， 
下 面 我 们 就 在 实践 中 认识 一 下 CNN 的 使 用 特性 。 


6.8 ”输出 层 激励 函数 一 一 SOFTMAX 


6.8.1 SOFTMAX 


在 前 一 章 我 们 接触 过 了 一 种 激励 函数 ， 就 是 Sigmoid 函数 。 这 种 函数 的 含义 其 实 就 是 
似 然 度 ， 在 前 面 已 经 做 过 推导 和 说 明了 。 这 次 我 们 介绍 一 种 新 的 激励 函数 一 一 SOFTMAX。 
我 们 先 来 看 看 这 种 激励 函数 出 现 的 输出 层 是 什么 样子 : 





从 样子 上 来 看 这 种 方式 跟 普通 的 全 连接 层 没有 什么 区 别 ， 但 是 激励 函数 的 形式 却 大 大 
不 同 。 
首先 后 面 一 层 作 为 预测 分 类 的 输出 节点 ， 每 一 个 节点 就 代表 一 个 分 类 ， 那 么 这 7 个 节 
点 就 最 多 能 够 表示 7 个 分 类 的 模型 。 任 何 一 个 节点 的 激励 函数 都 是 
о\(:)=— 


j=l 
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其 中 i 就 是 节点 的 下 标 次 序 ， 而 z= wx + b,， 也 就 是 说 这 是 一 个 线性 分 类 模型 的 输出 作为 
自然 常数 e 的 指数 。 最 有 趣 的 是 最 后 这 一 层 有 这 样 一 个 特性 ， 那 就 是 


(2) 1 


也 就 是 说 最 后 一 层 的 每 个 节点 的 输出 值 加 和 是 1。 这 种 激励 函数 从 物理 意义 上 可 以 解释 为 一 
个 样本 通过 网 络 进行 分 类 的 时 候 在 每 个 节点 上 输出 的 值 都 是 小 于 等 于 1 的 ， 是 它 从 属于 这 
个 分 类 的 概率 。 在 训练 的 时 候 方 法 大 家 可 能 也 已 经 猜 到 了 ， 就 是 拿 到 一 个 训练 样本 和 给 分 
类 标签 一 个 下 标 序 号 ， 然 后 对 应 的 节点 给 1， 其 他 给 0。 举 个 例子 ， 如 果 我 有 7 张 不 同 的 图 
片 ， 分别 代 表 飞 机 、 汽 车 、 轮 船 、 猫 、 狗 、 鸟 、 太 阳 。 那 么 按照 顺序 ， 这 些 图 片 分 别 应 该 
被 标记 为 


1 0 0 0 0 
0 1 0 0 0 
0 0 1 0 0 
飞机 :| 0 | 汽车 :| | 轮船 :| 0 | 鸟 : | 0 | xg. 0 
0 0 0 0 0 
0 0 0 1 0 
0 0 0 0 1 


训练 的 时 候 依次 把 图 片 和 其 对 应 的 向 量 标签 放 入 网 络 训 练 就 可 以 了 。 
而 一 张 待 分 类 的 图 片 输出 的 时 候 其 实 会 产生 类 似 这 样 一 个 形式 : 
0.005 
0.005 
0.030 
0.620 
0.101 
0.020 
0.219 
不 要 党 得 奇怪 ， 这 就 是 我 们 刚才 说 的 那 种 情况 ， 每 个 维度 就 是 这 个 样本 所 对 应 类 别 的 
概率 解释 ， 届 时 可 以 选择 输出 值 最 大 的 那个 就 可 以 了 ， 意 为 该 图 片 属于 这 种 分 类 的 可 能 性 
最 大 。 是 不 是 从 意义 上 也 很 好 理解 呢 ? 
这 种 激励 函数 通常 用 在 神经 网 络 的 最 后 一 层 作为 分 类 器 的 输出 ， 有 7 个 节点 就 可 以 做 7 
个 不 同样 本 类 别 的 判断 ， 有 1000 个 节点 就 可 以 做 1000 个 不 同样 本 类 别 的 判断 一 一 例如 就 
像 VGG-16 那样 ， 应 该 说 这 个 概念 不 难 理解 。 不 过 ， 这 种 充当 分 类 器 的 网 络 的 残 差 应 该 怎 
么 定义 呢 ? 我 们 继续 往 下 看 。 


6.8.2 У 


SOFTMAX iX FA Bi) eR ЖОШ FEE dL A РА ГЭ: НЕ, OL FEE MAW (cross entropy ) 
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损失 函数 。 什 么 叫 交叉 焙 损 失 函 数 呢 ， 如 何 理解 这 种 函数 呢 ? 我 们 要 一 点 一 点 把 这 个 概念 
叙述 清楚 。 

PEPE AREF ARE” RE, SR HA RH ИЕН РЕ 
习 有 一 定 基础 的 话 这 个 概念 应 该 不 会 太 陌生 。 如 果 没 有 概念 的 话 ， 请 跟 我 读 完 下 面 这 段 内 
容 。 信 息 炉 如 果 要 用 平民 语言 说 得 尽 可 能 直 白 的 话 ， 我 觉得 可 以 说 成 是 信息 的 杂乱 程度 或 
者 意外 程度 的 量化 描述 。 

我 们 先 给 公式 吧 : 

H(x)--2,p(x.)og, Р(х), X (i-1,2, 而 

解释 : 前 面 的 x 我 们 当成 一 个 向 量 吧 ， 就 是 若干 个 x 把 每 个 可 能 项 产生 的 概率 乘 以 该 
可 能 性 的 信息 量 ， 然 后 各 项 做 加 和 。 

也 许 有 的 朋友 在 其 他 资料 上 会 看 到 这 里 的 log 是 取 以 10 为 底 的 对 数 lg， 或 者 自然 常数 
е 为 底 的 ln 自然 对 数 。 这 里 强调 一 下 ， 在 我 们 应 用 的 过 程 中 用 任何 一 个 值 做 底 都 是 可 以 的 ， 
但 是 注意 在 某 一 次 应 用 的 整个 过 程 中 ， 参 与 本 次 应 用 的 所 有 信息 焙 都 必须 采用 同一 个 底 ， 
不 能 将 不 同 底 的 对 数 求 出 的 再 做 加 和 或 者 比较 ， 这 样 完全 没有 意义 (就 好 像 3 米 和 2 英 
尽 ， 虽 然 都 是 长 度 单位 ， 但 是 3 米 +2 英尺 既得 不 到 5 米 也 得 不 到 5 英尺 )。 


1. 示 例 1: 235 1 "一边倒 ” 
为 了 说 得 清楚 还 是 具体 举例 吧 ， 比 如 中 国 乒乓 球 队 和 巴西 乒乓 球 队 比赛 。 
假设 中 国 乒 乓 球 队 和 巴西 乒乓 球 队 历史 交手 共 64 次 ， 其 中 中 国 队 获 胜 63 次 ， Sag 


前 大 家 普遍 认可 的 中 国 队 获胜 的 概率 一 一 这 个 是 先 验 概率 。 那 么 这 次 “中 国 队 获胜 ”这 个 
消息 的 信息 量 有 多 大 呢 ? 


H (Xi) = -log, = =0.023 

“巴西 队 获 胜 ” 的 信息 量 有 多 大 呢 ? 
H (Xi) - -log, = =6 

PVA, + БЕКА AN ES PEE EE ER DÀ ЕЛЕП Ж, 3x e125 : 

0.023x 3 46x = 0.1164 

64 64 
对 于 无 限 不 循环 小 数 我 们 只 能 根据 需要 取 一 个 近似 值 了 ， 注 意 这 个 是 一 个 “2 选 1 的 情 
Oi, FF AWARE PERS” ERR 


2. 示例 2: 241 “ERB” 
再 看 一 个 两 者 势均力敌 的 情况 ， 假 设 德国 乒乓 球 队 和 法 国 乒 乓 球 队 比 赛 ， 双 方 历史 交 


T 64 次 ， 交 手 胜 负 为 32:32， 那么 > 是 赛 前 大 家 普遍 认可 的 德国 队 的 获胜 概率 ， 同时 也 是 法 


ww ai bit. com ЦППППППП 


HOR SRAM se 119 


FS AAR BER ABA WAAR BS BH : 


德国 队 获胜 的 信息 量 : 

H (Xi) - -log, 7 -1 
法 国 队 获胜 的 信息 量 : 

H(Xi)=—log, == 1 
WIR ABE 


1 1 
1х—+1х— =] 
2 2 
注意 这 个 是 一 个 “结果 2 选 1 ARERR” Bj. 
3. 示例 3: 32 选 1“ 差 不 多 ” 


那 好 ， 最 后 我 们 再 看 一 下 ， 如 果 在 足球 世界 杯 决赛 阶段 ， 就 是 假设 32 支 球 队 获得 冠军 
等 概率 的 情况 下 做 一 个 信息 粹 的 计算 。 


队伍 1 获胜 的 信息 量 : 

H(Xi) - -log, —=5 
队伍 2 获胜 的 信息 量 : 

Н (Xi) =—log, = =5 
队伍 32 获胜 的 信息 量 ; 


Ms A. 
H(Xi)- log; = 5 
We (—3t 32 个 ): 
1 


duct qim Лык сыйн кый 
32 32 32 


注意 这 是 一 个 “32 选 1 050, JEHASBOR" Di. 

4. 示 例 4: 3235 1 "一边 倒 ” 

我 们 再 试 着 求 一 下 这 种 情况 : 

其 中 队伍 1 获胜 的 概率 为 99%， 而 其 他 31 支队 伍 每 一 支队 伍 的 获胜 概率 都 为 = 的 情 
况 下 ， 比 赛 结果 的 信息 炉 为 多 少 。 

队伍 1 获胜 的 信息 量 : 

H (Xi) =—log, 0.99 = 0.0145 
队伍 2 获胜 的 信息 量 ， 
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H(Xi) = -log, E =11.60 


队伍 32 获胜 的 信息 量 : 


H(Xi)=—log, 997 - 11.60 


WER СЕ —3E 31 4S x11.60); 


0.99x0.0145+11.60x 77 +11.60x 077 tL ix T. - 0130 


从 上 面 这 4 个 例子 可 以 看 出 来 ， 每 次 比赛 这 个 事件 都 会 产生 一 个 结果 消息 ， 这 个 消息 
其 实 是 有 限 个 的 枚 举 值 。 就 说 中 国 乒乓 球 队 和 巴西 乒乓 球 队 比赛 取 ， 要 么 中 国 队 胜利 ， 要 
么 巴西 队 胜利 。 然 而 这 两 种 情况 显然 先 验 概率 是 不 一 样 的 ， 也 就 是 说 根据 历史 以 往 的 经 验 ， 
这 两 种 信息 产生 的 可 能 性 是 不 同 的 ， 对 体育 新 闻 熟 悉 的 朋友 应 该 很 快 就 能 知道 ， 中 国 队 获 
胜 的 可 能 性 要 远大 于 巴西 队 。 而 具体 这 个 概率 是 多 少 一 般 则 是 由 统计 得 出 的 ， 进 而 生成 一 
个 先 验 概率 。 当 然 了 ， 统 计 的 周期 丽 怕 是 因 人 和 场合 而 异 ， 但 总 归 会 得 到 各 自 获 胜 的 一 个 
值 ， 也 就 是 中 国 队 获胜 的 概率 和 巴西 队 获 胜 的 概率 。 这 个 时 候 再 代入 公式 就 能 得 到 关于 这 
次 比赛 结果 信息 的 信息 粹 了 。 从 我 们 刚才 看 到 的 这 4 个 例子 来 看 的 话 会 有 这 种 感觉 消息 
PEM MAREE, MERRIER EARRAK; 反之 ,消息 产生 的 种 类 越 单一 ， 概 率 产 生 
越 偏 向 其 中 某 一 个 消息 ,那么 焙 值 就 越 小 。 最 极端 的 情况 当然 就 是 只 有 一 种 消息 ， 而 且 概 
* 100% 的 情况 ， 这 种 情况 焙 为 0， 大 家 自己 也 可 以 在 脑子 里 过 一 下 ， 究 竟 什 么 样 的 消息 系 
RRT ERA 0 的 情况 。 

如 果 信 息 科 的 概念 理解 没有 问题 的 话 ， 那 么 交叉 业 的 概念 也 就 会 好 理解 一 些 了 ， 先 给 表 
达 式 。 








МИК PRI (BER РА) 的 形式 上 来 看 ， 会 不 会 觉得 比较 眼熟 ? 是 的 ， 看 上 去 好 
像 在 做 逻辑 回归 ， 因 为 对 于 每 一 种 分 类 都 是 伯 努 利 分 布 ， 要 么 “是 ”要 么 “不 是 "， 当 然 对 
于 它们 中 每 一 个 来 说 表达 形式 会 看 着 多 少 有 些 同 源 。 


3; а=о (z) 
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对 于 最 后 一 层 SOFTMAX 的 每 一 个 输出 节点 来 说 ， 都 是 上 面 这 个 样子 ， 有 多 个 x 输 入 
的 向 量 ， 有 节点 上 的 w 和 矩阵 跟 它 做 内 积 ， 加 上 偏 置 ，»， 再 把 结果 通过 Sigmoid 函数 输出 一 
个 0 到 1 之 间 的 概率 值 。 

1 
1+e 
o'(z)=0(z)(1-o(z)) : 

Sigmoid 函数 是 一 个 很 有 趣 的 函数 ， 当 把 它 对 它 的 自 变量 z 求 导 的 时 候 会 得 到 自身 o (2) 

和 l-o (2) 的 乘积 。 不 要 党 得 奇怪 ， 它 的 导数 就 是 这 个 结果 。 然 后 一 步 一 步 做 纯 数学 推导 : 





a(z)= 














Sum, iyd X „ск Ме 

Ow, n POR 1- cse 

zx OLoss AN y — 1—y E 
m Eco oe 
OLoss o'(z)x, 

= ôw, = a(z)(1- ol( aye e 7) 


OLo. 1 
e | 722^ (o(z)-y) 


根据 链 式 法 则 ， 我 们 还 是 能 得 到 这 样 一 个 偏 导 值 。 偏 导数 能 帮 到 我 们 的 就 是 求 出 在 凸 
优化 时 每 个 待定 系数 在 更 新 中 所 移动 的 大 小 。 我 们 只 说 一 点 好 了 ， 请 注意 这 个 地 方 我 们 如 
何 理解 : 

Loss - — 3 y (Ina) +(1-y,)in(1~a) 

在 整个 训练 进行 的 过 程 中 ,我们 是 把 样本 向 量 和 标签 向 量 同时 放 入 模型 的 。 在 放 入 的 
时 候 自然 样本 没有 特殊 理由 的 情况 下 都 是 会 将 期 望 的 分 类 维度 设置 成 1， 其 余 的 维度 设置 成 
0， 用 这 样 的 形式 来 标记 分 类 标签 向 量 。 也 就 是 上 面 说 的 这 个 %。 而 在 拟 合 的 过 程 中 会 有 这 
样 一 个 事实 ， 那 就 是 说 当 包 为 0 的 时 候 ， 由 于 蕊 In a 失效 而 (1-y) In (1-а) 这 一 项 是 有 
效 的 ， 所 以 mn (1-а) 的 大 小 就 是 损失 值 了 。 这 个 就 很 好 理解 了 ， 本 来 不 应 该 分 成 这 一 类 ， 
但 是 1-а 却 成 为 了 分 作 这 一 类 的 概率 ，ln (1-а) 是 负数 。 

“In ( 1-x)” 的 图 表 


77000180512 у. -0.0018067 | 





ww ai bb. com 60 00000 


122 +» 原理 与 实践 篇 


从 函数 y=In( 1-x) 的 图 像 上 也 能 看 出 来 ，a 越 接近 1 产生 的 负 值 的 绝对 值 就 越 大 ， 也 
可 以 解释 成 拟 合 所 产生 的 分 类 概率 与 实际 应 该 产生 的 分 类 概率 分 歧 越 大 。 反 之 ,a 越 接近 0 
则 产生 比较 小 损失 值 越 小 。 同 理 ， 当 区 为 1 的 时 候 ，(1-y) In (1-а) 失效 而 yln a AR, 
此 时 产生 很 类 似 的 情况 ，a 越 接近 1 则 损失 值 越 小 ，a 越 接近 0 损失 值 越 大 。> 里 面 所 包括 
的 内 容 加 和 一定 是 一 个 负数 ， 而 在 前 面 加 了 -后 则 会 变 成 正 数 ， 正 数 越 大 损失 值 也 就 越 大 。 


“In (x)” 的 图 表 








在 整个 训练 的 过 程 中 ,实际 在 每 个 样本 进行 拟 合 的 时 候 都 会 产生 这 样 一 个 效果 ， 那 就 
是 诸如 这 样 一 对 一 对 的 目标 分 类 向 量 值 和 拟 合 分 类 向 量 值 之 间 的 差 值 : 


1 0.22 
0 0.15 
0 | 和 | 0.40 
0 0.10 


0 0.03 
1 0.12 
0 | 和 | 0.22 
0 0.07 


0.02 
0.02 
和 | 0.85 
0.04 


O =- с 0 


APN КАН "ac SUE" ELASTE? 就 是 一 种 当前 拟 合 出 来 的 模型 分 类 所 
产生 的 信息 箭 和 这 种 “客观 上 ”的 信息 焙 的 差距 。 

首先 ， 在 你 创造 的 这 个 “小 世界 ”( 就 是 这 个 网 络 ) 里 ， 比 如 你 放 进 去 10000 张 图 片 做 
训练 ， 分 成 4 类 ， 不 论 这 四 类 是 比较 平均 的 还 是 某 一 类 比较 多 ， 从 统计 上 都 会 产生 一 个 信 
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息 粹 ， 也 就 是 随便 来 一 张 图 片 即便 不 通过 这 个 网 络 也 会 有 一 个 先 验 概率 产生 。 这 个 概率 就 
是 基于 这 些 图 片 “天 然 ” 分 布 的 一 个 统计 比例 ， 这 就 和 我 们 在 不 知道 任何 其 他 前 提 的 情况 


下 看 到 有 个 通 子 扔 到 空中 ， 当 它 落地 的 时 候 所 到 1 的 概率 是 <; 或 者 在 一 个 苹果 手机 市 场 上 


有 率 为 70% 的 地 区 ， 随 便 在 街 上 找到 一 个 人 问 他 的 手机 是 什么 品牌 ， 回 答 为 苹果 手机 的 概 
率 为 70% 是 完全 一 样 的 情况 。 根 据 这 种 针对 “客观 世界 ”的 统计 产生 的 分 类 的 “信息 炳 ” 
就 是 分 类 目标 的 箭 ， 而 在 拟 合 过 程 中 产生 的 烂 实际 上 跟 这 个 箭 值 是 有 差距 的 ， 这 个 差距 就 
是 在 使 用 交叉 箭 损失 函数 的 情况 下 所 定义 的 焙 的 差距 ， 那 么 优化 的 方向 就 是 向 着 调整 待定 
系数 减 小 “ 炉 差 ”的 方向 去 运动 。 现 在 好 理解 了 吧 ? 而 且 通 过 观察 你 也 可 以 发 现 这 个 差 值 
越 大 导数 也 就 越 大 ， 学 习 的 效率 也 就 越 高 ， 这 当然 也 是 一 个 非常 好 的 性 质 。 通 过 训练 不 断 
调整 众多 卷 积 核 中 w 的 大 小 ， 来 决定 一 个 合适 的 特征 提取 的 量化 值 ， 这 就 是 卷 积 网 络 训练 
的 基本 原理 了 。 


5. 独 热 编 码 

这 里 在 交叉 炉 的 最 后 一 个 部 分 补充 一 个 小 的 概念 说 明 ， 叫 独 热 编码 (one-hot 
encoding)。 什 么 是 独 热 编码 呢 ? 就 是 一 种 用 一 个 向 量 的 每 一 个 维度 来 标识 一 种 性 质 有 无 的 
方式 。 在 前 面 的 例子 中 我 们 已 经 看 到 了 应 用 ， 就 是 标注 分 类 的 时 候 所 使 用 的 方法 。 我 们 再 
来 看 几 个 例子 : 

例如 ， 人 性 别 这 样 一 个 属性 ， 如 果 要 用 向 量 来 标识 可 以 怎么 做 呢 ? 在 有 的 模型 解释 中 可 
能 会 直接 做 成 伯 努 利 分 布 的 解释 ， 用 1 来 标识 男性 ，0 来 标识 女性 。 作 为 向 量 输入 的 时 候 
HA: 

[1] 和 [0] 
这 种 方式 是 可 以 的 。 但 是 如 果 用 独 热 编码 的 方式 就 会 表示 成 : 
[1,0] 和 [0,1] 

看 出 区 别 了 吧 。 

再 举 一 个 典型 一 些 的 例子 。 假 如 在 一 个 模型 建立 中 需要 输入 几 个 不 同 的 汽车 类 别 ， 例 
如 轿车 、SUV、MPV、 皮卡 、 大 巴 、 货 车 、 其 他 这 样 几 个 类 别 。 在 这 里 用 独 热 编码 就 更 合 
适 一 些 ， 那 么 这 几 种 车 辆 分 别 对 应 的 编码 就 可 以 设 定 为 : 

轿车 : [1,0,0,0,0,0,0] 

SUV: [0,1,0,0,0,0,0,] 

MPV: [0,0,1,0,0,0,0] 

皮卡 : [0,0,0,1,0,0,0] 

X E: [0,0,0,0,1,0,0] 

SÆ: [0,0,0,0,0,1,0] 

其 他 : [0,0,0,0,0,0,1] 

这 种 情况 下 再 使 用 0、1、2、3、4…… 这 些 数 字 来 标注 它们 就 不 太 合 适 了 。 因 为 这 些 数 
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字 在 一 个 维度 上 是 有 着 大 小 关系 的 ， 在 这 样 设 定 表示 对 象 的 过 程 中 这 种 关系 被 强加 给 了 这 
些 对 象 ， 而 这 样 一 种 关系 在 被 证 明 存 在 之 前 是 不 应 该 这 样 直接 赋予 对 象 的 ， 这 样 会 干扰 模 
型 对 数据 认 知 的 归纳 过 程 。 而 比较 好 的 办 法 ， 则 是 把 它们 做 成 独 热 编码 的 形式 ， 使 得 它们 
成 为 正 交 的 维度 。 这 种 独 热 编 码 在 深度 学 习 中 的 应 用 很 广泛 ， 大 家 可 以 注意 一 下 。 


6.9 ”小 试 牛 刀 一 一 卷 积 网 络 做 图 片 分 类 


这 一 节 ， 我 们 来 看 一 个 用 CNN 做 图 片 分 类 的 例子 ， 是 把 CNN 应 用 于 CIFAR-10 上 的 
一 个 实验 过 程 。 实 验 之 前 我 们 必须 声明 一 点 ， 普 通 的 全 连接 BP 网 络 跑 一 下 CIFAR-10 也 是 
有 比较 好 的 结果 的 ， 只 是 CNN 会 有 更 好 的 收敛 速度 和 更 高 一 些 的 精确 度 。 

这 里 说 的 CIFAR-10 是 由 Geoffrey Hinton 和 他 的 两 个 学 生 Alex Кгігһеуѕку. Ilya Sutskever 
所 收集 的 一 个 用 于 普 适 物体 识别 的 数据 集 ， 也 叫 作 CIFAR-10 Dataset。CIFAR 是 加 拿 大 政 
府 牵 头 投资 的 一 个 先进 科学 项 目 研 究 所 ， 全 称 是 Cooperative Institute for Arctic Research, 
项 目 主页 位 于 : https:Wwww.cs.toronto.edu/~kriz/cifarhtml。 虽 然 看 起 来 样子 非常 简陋 ， 但 
是 实验 用 的 基本 信息 一 应 俱全 。 

这 个 项 目 中 包含 了 60000 #К 32 x 32 像素 的 彩色 图 片 ， 拥 有 10 个 不 同类 别 的 标签 。 其 
中 50000 张 是 训练 集 ， 还 有 10000 张 是 测试 集 ， 当 作 实 验 玩具 来 说 应 该 是 绰绰有余 了 。 包 
括 前 面 我 们 提 到 的 MNIST 数据 集 在 内 ， 它 们 都 是 由 政府 或 者 大 的 非 盘 利 组 织 提供 出 来 供 初 
学 者 学 习 或 交流 所 用 的 ， 毕 竟 带 有 高 质量 标签 的 样本 是 在 深度 学 习 中 是 成 本 最 高 的 东西 了 。 
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数据 集 在 主页 上 有 下 载 地 址 ， 大 家 自己 下 载 就 可 以 。 

TensorFlow 官方 同样 提供 了 GitHub 地 址 供 大 家 下 载 CNN 做 CIFAR10 实验 的 代码 ， 位 
置 在 : https://github.com/tensorflow/models， 文 件 所 在 目录 models/tutorials/image/cifar10。 

本 书 中 附带 的 代码 提供 了 这 样 几 个 文件 。 

О # GPU 版 本 сіѓаг10 trian.py， 以 及 cifarl0.py, cifar10_input.py. 

Q £ GPU 版本: сіѓаг10 multi рро trian.py. 

先 来 看 单 GPU 版 本 的 文件 cifarl0_train.py: 


1 # Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


44 import cifarl10 


45 

46 FLAGS - tf.app.flags.FLAGS 

47 

48 tf.app.flags.DEFINE string('train dir', '/tmp/cifar10 train', 


49 """Directory where to write event logs """ 

50 """and checkpoint.""") 

51 tf.app.flags.DEFINE integer('max steps', 1000000, 

52 """Number of batches to run.""") 

53 tf.app.flags.DEFINE boolean('log device placement', False, 
54 """Whether to log device placement.""") 


57 def train(): 

58 """Train CIFAR-10 for a number of steps.""" 

59 with tf.Graph().as default(): 

60 global step - tf.contrib.framework.get or create global step() 


62 # Get images and labels for CIFAR-10. 
63 images, labels = cifarl0.distorted inputs() 


65 4 Build a Graph that computes the logits predictions from the 
66 # inference model. 
67 logits = cifarl0.inference (images) 


69 # Calculate loss. 
70 loss = cifarl0.loss(logits, labels) 


72 # Build a Graph that trains the model with one batch of examples and 
73 # updates the model parameters. 


74 train op = cifarl0.train(loss, global step) 


76 class _LoggerHook (tf.train.SessionRunHook) : 
77 """Logs loss and runtime.""" 


79 def begin(self): 
80 self. step - -1 
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82 def before run(self, run context): 

83 self. step += 1 

84 self. start time - time.time() 

85 return tf.train.SessionRunArgs(loss) # Asks for loss value. 
B6 

87 def after run(self, run context, run values): 

88 duration - time.time() - self. start time 

89 loss value - run values.results 

90 if self. step % 10 == O0: 

91 num examples per step - FLAGS.batch size Р 

92 examples per sec = num examples рег step / duration 

93 sec per batch - float (duration) 

94 

95 format str = ('$s: step td, loss = $.2f ($.1f examples/sec; $.3f ' 
96 'sec/batch) ') 

97 print (format str % (datetime.now(), self. step, loss value, 
98 examples per sec, sec per batch)) 

99 

100 with tf.train.MonitoredTrainingSession( 

101 checkpoint dir-FLAGS.train dir, 

102 hooks-[tf.train.StopAtStepHook(last step-FLAGS.max steps), 
103 tf.train.NanTensorHook (loss), 

104  LoggerHook()], 

105 config-tf.ConfigProto ( 

106 log device placement-FLAGS.log device placement)) as mon sess: 
107 while not mon sess.should stop(): 

108 mon sess.run(train op) 

109 

110 

111 def main(argv=None): # pylint: disable-unused-argument 

112 cifarl0.maybe download and extract () 

113 if tf.gfile.Exists(FLAGS.train dir): 

114 tf.gfile.DeleteRecursively(FLAGS.train dir) 

115 tf.gfile.MakeDirs(FLAGS.train dir) 

116 train() 

117 

118 

119 if name == ' main ': 

120 tf.app.run() 


120 fT, JAZ} TensorFlow. 

111 ~ 116 47, JAZ} TensorFlow 后 首先 调用 main 函数 ， 下 载 cifar10 dataset， 创 建 目录 。 
59 行 ， 使 用 默认 图 。 

60 行 ， 全 局 步 数 变量 。 

63 行 ， 获 取 训 练 数据 和 其 对 应 的 标签。 

67 一 74 行 ,创建 网 络 Op, loss Op， 训 练 Op. 

100 一 106 行 ， 这 里 使 用 MonitoredTrainingSession 可 以 设置 钩子 函数 在 开始 训练 之 前 ， 
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每 次 运行 之 前 ， 以 及 运行 过 程 中 设置 回调 函数 处 理 变量 ， 输 出 信息 。 
107 ~ 108 行 ， 开 始 训练 ， 传 信 train Op 直到 FLAGS.max steps 停止 上 方 代码 有 设置 : 
tf.train.StopAtStepHook (last_step=FLAGS.max_steps)。 


80 fT, 
83 47, 
85 fT, 
89 1T, 


开始 训练 之 前 设置 当前 步 数 。 
每 次 运行 之 前 更 新 当前 步 数 。 
运行 一 个 step， 传 进 loss Op。 
loss Op 的 返回 结果 。 


90 ~ 97 行 ， 运 行 时 每 10 个 step 输出 信息 。 
сіѓаг10.ру 文件 : 


1 # Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


import cifar10 input 
FLAGS - tf.app.flags.FLAGS 


# Basic model parameters. 

tf.app.flags.DEFINE integer('batch size', 128, 

"""Number of images to process in a batch.""") 
tf.app.flags.DEFINE string('data dir', '/tmp/cifarl0_data', 
"""Path to the CIFAR-10 data directory.""") 
tf.app.flags.DEFINE boolean('use fpl6', False, 

"""Train the model using fp16.""") 


# Global constants describing the CIFAR-10 data set. 
IMAGE SIZE - cifarl0 input.IMAGE SIZE 

NUM CLASSES = cifar10 input.NUM CLASSES 

NUM EXAMPLES PER EPOCH FOR TRAIN - 

cifarl0 input.NUM EXAMPLES PER EPOCH FOR TRAIN 

NUM EXAMPLES PER EPOCH FOR EVAL - 

cifarl0 input.NUM EXAMPLES PER EPOCH FOR EVAL 


# Constants describing the training process. 

MOVING AVERAGE DECAY = 0.9999 # The decay to use for the moving average. 
NUM EPOCHS PER DECAY = 350.0 # Epochs after which learning rate decays. 
LEARNING RATE DECAY FACTOR = 0.1 # Learning rate decay factor. 

INITIAL LEARNING RATE = 0.1 4 Initial learning rate. 


# If a model is trained with multiple GPUs, prefix all Op names with tower name 
# to differentiate the operations. Note that this prefix is removed from the 
# names of the summaries when visualizing a model. 


TOWER NAME - 'tower' 


DATA URL - 'http://www.cs.toronto.edu/-kriz/cifar-10-binary.tar.gz' 
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78 

79 def _activation_summary (x) : 

95 tf.nn.zero fraction (x) ) 

96 

97 

98 def "variable on сри (пате, shape, initializer): 

99 """Helper to create a Variable stored on CPU memory. 


+ 


109 with tf.device('/cpu:0'): 

110 асуре = tf.floatl6 if FLAGS.use #р16 else tf.float32 

111 var - tf.get variable(name, shape, initializer-initializer, dtype=dtype) 
112 return var 


115 def variable with weight decay(name, shape, stddev, wd): 

131 dtype = tf.floatié if FLAGS .use_fp16 else tf.float32 

132 var = variable on сри ( 

133 name, 

134 shape, 

135 tf.truncated normal initializer(stddev-stddev, dtype-dtype)) 

136 if wd is not None: 

137 weight decay - tf.multiply(tf.nn.12 loss(var), wd, name-'weight loss') 
138 tf.add to collection('losses', weight decay) 

139 return var 


142 def distorted inputs(): 

152 if not FLAGS.data dir: 

153 raise ValueError('Please supply a data dir') 

154 data dir = os.path.join(FLAGS.data dir, 'cifar-10-batches-bin') 
155 images, labels - cifarlO0 input.distorted inputs(data dir-data dir, 
156 batch size-FLAGS.batch size) 

157 if FLAGS.use #р16: 

158 images = tf.cast(images, tf.floati6) 

159 labels = tf.cast(labels, tf.float16) 

160 return images, labels 


163 def inputs(eval data): 

176 if not FLAGS.data dir: 

177 raise ValueError('Please supply a data dir') 

178 data dir = os.path.join(FLAGS.data dir, 'cifar-10-batches-bin') 
179 images, labels - cifarl0 input.inputs(eval data-eval data, 

180 data dir=data dir, 

181 batch size-FLAGS.batch size) 

182 if FLAGS.use #р16: 
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183 images = tf.cast(images, tf.float16) 
184 labels = tf.cast(labels, tf .float16) 
185 return images, labels 


188 def inference (images): 

202 # convi 

203 with tf.variable scope('convi1') as scope: 

204 kernel = variable with weight decay('weights', 

205 shape=[5, 5, 3, 64], 

206 stddev-5e-2, 

207 wd-0.0) 

208 conv = tf.nn.conv2d(images, kernel, [1, 1, 1, 1], padding-'SAME') 
209 biases = variable on cpu('biases', [64], tf.constant initializer(0.0)) 
210 pre activation - tf.nn.bias add(conv, biases) 

211 сопу1 = tf.nn.relu(pre activation, name-scope.name) 

212 activation summary (conv1) 


214 # pooll 

215 pooll = tf.nn.max pool(convl, ksize-[1, 3, 3, 1], strides-[1, 2, 2, 1], 
216 padding-'SAME', name-'pooll') 

217 4 погт1 

218 norml = tf.nn.lrn(pooll, 4, bias-1.0, alpha-0.001 / 9.0, beta-0.75, 

219 name-'norml!') 


221 # conv2 

222 with tf.variable scope('conv2') as scope: 

223 kernel = variable with weight decay('weights', 

224 вһаре= [5, 5, 64, 64], 

225 stddev-5e-2, 

226 wd=0.0) 

227 conv = tf.nn.conv2d(norml, kernel, (1, 1, 1, 1], padding='SAME') 
228 biases = variable on cpu('biases', [64], tf.constant initializer(0.1)) 
229 pre activation - tf.nn.bias add(conv, biases) 

230 conv2 - tf.nn.relu(pre activation, name-scope.name) 

231 activation summary (conv2) 


233 # norm2 

234 norm2 = tf.nn.lrn(conv2, 4, bias-1.0, alpha-0.001 / 9.0, beta-0.75, 
235 names'norm2') 

236 4 pool2 

237 pool2 = tf.nn.max роо1 (погт2, ksize-[1, 3, 3, 1], 

238 strides-[1, 2, 2, 1], padding-'SAME', name='pool2') 


240 # local3 

241 with tf.variable scope('local3') as scope: 

242 # Move everything into depth so we can perform a single matrix multiply. 
243 reshape = tf.reshape(pool2, [FLAGS.batch size, -1]) 

244 dim = reshape.get_shape() [1] . value 
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weights = variable with weight decay('weights', shape-[dim, 384], 
stddev=0.04, wd=0.004) 

biases = _variable_on_cpu('biases', [384], tf.constant initializer(0.1)) 
local3 = tf.nn.relu(tf.matmul(reshape, weights) + biases, name=scope.name) 
_activation_summary (1ocal3) 


# local4 

with tf.variable scope('local4') as scope: 

weights - variable with weight decay('weights', shape-[384, 192], 
stddev=0.04, wd=0.004) 

biases = variable_on_cpu('biases', [192], tf.constant initializer(0.1)) 
local4 = tf.nn.relu(tf.matmul(local3, weights) + biases, name=scope.name) 
_activation_summary (1оса14) 


# linear layer (WX + b), 

# We don't apply softmax here because 

# tf.nn.sparse softmax cross entropy with logits accepts the unscaled logits 
# and performs the softmax internally for efficiency. 

with tf.variable scope('softmax linear') as scope: 

weights - variable with weight decay('weights', [192, NUM CLASSES], 
stddev=1 / 192.0, wd=0.0) 

biases = variable on cpu('biases', [NUM CLASSES], 

tf.constant initializer(0.0)) 

softmax linear - tf.add(tf.matmul(local4, weights), biases, name-scope.name) 
.activation summary (softmax linear) 


return softmax linear 


def loss(logits, labels): 


# Calculate the average cross entropy loss across the batch. 
labels = tf.cast(labels, tf.int64) 
cross entropy = tf.nn.sparse softmax cross entropy with logits( 
labels-labels, logits-logits, name-'cross entropy per example!) 
cross entropy mean - tf.reduce mean(cross entropy, 

name-'cross entropy') 
tf.add to collection('losses', cross entropy mean) 


* The total loss is defined as the cross entropy loss plus all of the weight 
# decay terms (L2 loss). 
return tf.add n(tf.get collection('losses'), name-'total loss') 


def train(total loss, global step): 
num batches per epoch - NUM EXAMPLES PER EPOCH FOR TRAIN / 
FLAGS.batch size 


decay steps = int(num batches per epoch * NUM EPOCHS PER DECAY) 


* Decay the learning rate exponentially based on the number of steps. 
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343 lr = tf.train.exponential decay (INITIAL LEARNING RATE, 
344 global step, 

345 decay steps, 

346 LEARNING RATE DECAY FACTOR, 

347 staircase=True) 

348 tf.contrib.deprecated.scalar summary('learning rate', lr) 


349 

350 # Generate moving averages of all losses and associated summaries. 
351 loss averages ор = add loss summaries(total loss) 

352 


353 # Compute gradients. 

354 with tf.control dependencies([loss averages opl): 
355 opt = tf.train.GradientDescentOptimizer (lr) 

356 grads - opt.compute gradients(total loss) 


358 # Apply gradients. 
359 apply gradient ор = opt.apply gradients (grads, global step-global step) 


370 # Track the moving averages of all trainable variables. 

371 variable averages = tf.train.ExponentialMovingAverage ( 

372 MOVING AVERAGE DECAY, global step) 

373 variables averages op - variable averages.apply(tf.trainable variables()) 


375 with tf.control dependencies([apply gradient op, variables averages opl): 
376 train op = tf.no_op(name='train') 


378 return train op 


59 ~ 6247, CIFARIO dataset 图 片 大 小 ， 分 类 数目 ,训练 和 验证 数据 每 个 epoch 的 数 
据 数量 。 

66 ~ 69 行 ， 训 练 参数 。 

74 行 ， 如 果 使 用 多 GPU 进行 训练 ， 就 使 用 TOWER NAME 作为 Op name MATA. 

76 行 ，CIFAR10 dataset 下 载 地 址 。 

98 一 112 行 ,在 CPU 上 创建 变量 。 

109 行 ， 指 定 在 cpu:0 上 创建 变量 。 

111 行 ， 获 取 一 个 已 经 存在 的 变量 或 者 创建 一 个 新 的 。 

115 一 139 行 ， 创 建 weight 变 量 并 且 保 存 weight decay。 这 里 补充 说 一 下 ，weight 
decay 也 翻译 成 权 值 衰减 。 这 是 一 种 防止 过 拟 合 的 手段 ， 在 每 一 次 更 新 后 ， 权 值 w 会 乘 以 一 
个 衰减 系数 ， 就 是 这 个 weight decay， 通 常 是 一 个 略 小 于 1 的 数字 ， 以 压制 w 值 的 大 小 。 关 
于 为 什么 压制 会 有 比较 好 的 防止 过 拟 合 的 效果 后 面 我 们 也 会 讨论 。 

132 一 135 行 ,在 CPU 上 创建 变量 。 
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136 ~ 138 行 ， 根 据 Cross-Entropy L2 regularization 方程 : 
c= 一 2D ша? +(1-y,)In(1—a" exe 
在 计算 Loss 的 时 候 需 要 加 上 正则 化 项 ; 
4 › 
on™ 

这 个 地 方 突然 出 现 “ 正 则 化 项 ”这 个 概念 相信 让 不 少 读者 朋友 摸 不 着 头脑 一 一 天 上 掉 
下 个 不 认识 的 东西 。 不 过 没关系 ， 大 家 别 紧张 ， 先 记 住 这 里 加 了 一 个 正则 化 项 ， 在 下 一 章 
很 快 我 们 就 会 有 关于 正则 化 项 的 介绍 出 现 ， 它 是 用 来 防止 过 拟 合 的 一 种 工具 。 

这 里 137 行 就 是 计算 上 面 的 L2 Regularization，138 行 把 计算 出 来 的 数值 保存 到 
collection 里 ， 相 当 于 值 append 到 列表 的 结尾 。 

142 ~ 160 行 ， 获 取 训 练 数 据 和 其 对 应 的 标签 ， 多 GPU 用 ， 分 配 到 多 个 GPU Е. 

163 ~ 185 行 ， 获 取 训 练 数据 和 其 对 应 的 标签 ， 单 GPU 用 。 

188 一 271 行 创建 训练 CIFAR10 的 网 络 模型 。 

203 行 ，conv1/Variable/read:0。 

204 ~ 207 行 ， 创 建 变量 过 滤器 (filter). 

208 17, l 2-р 卷 积 层 Opo 

20947, 创建 变量 偏向 ,在 cpu Е. 

210 行 ， 添 加 偏 置 。 

211 行 ， 过 激励 函数 。 

215 行 ， 池 化 1。 

21717, 归 一 化 1 

241 — 249 行 ， 全 连接 层 3。 

243 行 ， 把 batch 上 的 每 条 数据 平 铺 成 1-D， 因 为 要 做 全 连接 。 

244 行 ， 随 便 获取 batch 上 的 一 条 数据 的 维度 ， 其 他 全 部 一 样 。 

274 一 295 行 ， 计 算 Loss， 然 后 把 Loss 添加 到 collection， 相 当 于 把 值 append 到 列表 
的 结尾 ，295 行 计 算 总 损失 估计 根据 Cross-Entropy L2。 


regularization 方程 : 
1 L L A 2 
— % Ina +(1-y, (1-а 395и 
这 里 需要 把 所 有 loss 加 和 再 加 上 : 


325 ~ 378 行 ， 训 练 模型 。 
343 ~ 347 行 ， 学 习 率 在 学 习 过 程 中 指数 下 降 ， 慢 慢 减 小 。 
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354 ~ 356 行 ， 计 算 梯度 依赖 loss_averages_op 就 是 先 计 算 loss averages op 再 计算 梯度 。 
359 行 ， 把 计算 完 的 梯度 放 回 去 。 

371 ~ 373 行 ， 计 算 训练 过 程 中 所 有 变量 的 移动 平均 值 。 

375 一 376 行 ， 计 算 train ор 时 需要 先 计 算 apply gradient op, variables averages ор. 
381 ~ 398 行 ， 下 载 数据 ， 解 压 数据 。 

多 GPU 版 本 文件 cifar10_multi_gpu_train.py: 


1 # Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


import tensorflow as tf 
import cifarlo 


FLAGS - tf.app.flags.FLAGS 


tf.app.flags.DEFINE string('train dir', '/tmp/cifar10 train', 
"""Directory where to write event logs """ 

"""and checkpoint.""") 

tf.app.flags.DEFINE integer('max steps', 1000000, 

"""Number of batches to run.""") 

tf.app.flags.DEFINE integer('num gpus', 1, 

"""How many GPUs to use.""") 
tf.app.flags.DEFINE boolean('log device placement', False, 
"""Whether to log device placement.""") 


def tower loss(scope): 


4 Get images and labels for CIFAR-10. 
images, labels = cifarl0.distorted inputs() 


# Build inference Graph. 
logits - cifarl0.inference(images) 


# Build the portion of the Graph calculating the losses. Note that we will 
4 assemble the total loss using a custom function below. 


_ = cifarl0.loss(logits, labels) 


# Assemble all of the losses for the current tower only. 
losses - tf.get collection('losses', scope) 


# Calculate the total loss for the current tower. 
total loss - tf.add n(losses, name-'total loss') 


# Attach a scalar summary to all individual losses and the total loss; 

4 do the same for the averaged version of the losses. 

for 1 in losses + [total 1088]: 

4 Remove 'tower [0-9]/' from the name in case this is a multi-GPU training 
# session. This helps the clarity of presentation on tensorboard. 
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95 loss пате = re.sub('ts_[0-9]*/' $ cifarlO.TOWER NAME, '', 1.ор.пате) 
96 tf.contrib.deprecated.scalar summary(loss name, 1) 

97 

98 return total loss 

99 

100 


101 def average gradients (tower grads): 


114 average grads - [] 
115 for grad and vars in zip(*tower grads): 
116 # Note that each grad and vars looks like the following: 


117 # ((gradO0 gpuO, var0_gpu0), ... , (grad0 gpuN, var0 gpuN)) 
118 grads - [] 
119 forg, _ in grad and vars: 


120 # Add 0 dimension to the gradients to represent the tower. 
121 expanded g = tf.expand dims(g, 0) 


123 4 Append on a 'tower' dimension which we will average over below. 
124 grads.append(expanded 9) 


126 4 Average over the 'tower' dimension. 
127 grad - tf.concat(grads, 0) 
128 grad - tf.reduce mean(grad, 0) 


129 
130 # Keep in mind that the Variables are redundant because they are shared 
131 # across towers. So .. we will just return the first tower's pointer to 


132 # the Variable. 

133 v = grad and vars[0] [1] 

134 grad and var - (grad, v) 

135 average grads.append(grad and var) 
136 return average grads 


139 def train(): 

140 """Train CIFAR-10 for a number of steps.""" 

141 with tf.Graph().as default(), tf.device('/cpu:0'): 

142 # Create a variable to count the number of train() calls. This equals 
143 # the number of batches processed * FLAGS.num gpus. 

144 global step - tf.get variable( 

145 'global step', [], 

146 initializer-tf.constant initializer(0), trainable-False) 


148 # Calculate the learning rate schedule. 

149 num batches per epoch - (cifarlO.NUM EXAMPLES PER EPOCH FOR TRAIN / 
150 FLAGS.batch size) 

151 decay steps = int (num batches per epoch * cifarlO0.NUM EPOCHS PER DECAY) 


153 4 Decay the learning rate exponentially based on the number of steps. 
154 lr = tf.train.exponential decay(cifarl0.INITIAL LEARNING RATE, 

155 global step, 

156 decay steps, 
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157 cifarlO.LEARNING RATE DECAY FACTOR, 

158 staircase-True) 

159 

160 # Create an optimizer that performs gradient descent. 

161 opt = tf.train.GradientDescentOptimizer (ir) 

162 

163 # Calculate the gradients for each model tower. 

164 tower grads - [] 

165 for i in xrange(FLAGS.num gpus): 

166 with tf.device('/gpu:td' $ i): 

167 with tf.name scopeí('$s %1' % (cifarlO.TOWER NAME, i)) as scope: 

168 # Calculate the loss for one tower of the CIFAR model. This function 
169 4 constructs the entire CIFAR model but shares the variables across 
170 # all towers. 

171 loss = tower loss(scope) 

172 

173 # Reuse variables for the next tower. 

174 tf.get variable scope().reuse variables() 

175 

176 # Retain the summaries from the final tower. 

177 summaries - tf.get collection(tf.GraphKeys.SUMMARIES, scope) 

178 

179 # Calculate the gradients for the batch of data on this CIFAR tower. 
180 grads = opt.compute gradients (loss) 

181 

182 4 Keep track of the gradients across all towers. 

183 tower grads.append(grads) 

184 

185 # We must calculate the mean of each gradient. Note that this is the 
186 # synchronization point across all towers. 

187 grads - average gradients(tower grads) 

188 

189 4 Add a summary to track the learning rate. 

190 summaries.append(tf.contrib.deprecated.scalar summary('learning rate', lr)) 
191 

192 4 Add histograms for gradients. 

193 for grad, var in grads: 

194 if grad is not None: 

195 summaries.append( 

196 tf.contrib.deprecated.histogram summary (var .op .name + '/gradients', 
197 grad)) 

198 

199 # Apply the gradients to adjust the shared variables. 

200 apply gradient op = opt.apply gradients(grads, global step-global step) 
201 

202 # Add histograms for trainable variables. 

203 for var in tf.trainable variables(): 

204 summaries.append( 

205 tf.contrib.deprecated.histogram summary(var.op.name, var)) 

206 

207 4 Track the moving averages of all trainable variables. 
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variable averages = tf.train.ExponentialMovingAverage ( 
cifarl0.MOVING_AVERAGE DECAY, global step) 
variables averages op = variable averages.apply(tf.trainable variables ()) 


# Group all updates to into a single train op. 
train op = tf.group(apply gradient op, variables averages op) 


# Create a saver. 
saver - tf.train.Saver(tf.global variables()) 


# Build the summary operation from the last tower summaries. 
summary op - tf.contrib.deprecated.merge summary (summaries) 


* Build an initialization operation to run below. 
init - tf.global variables initializer() 


# Start running operations on the Graph. allow soft placement must be 

# set to True to build towers on GPU, as some of the ops do not have GPU 
# implementations. 

sess = tf.Session(config-tf . ConfigProto ( 

allow soft placement-True, 

log device placement-FLAGS.log device placement)) 

sess.run(init) 


# Start the queue runners. 
tf.train.start queue runners (sess-sess) 


summary writer - tf.summary.FileWriter(FLAGS.train dir, sess.graph) 


for step in xrange(FLAGS.max steps): 

Start time - time.time() 

_, loss value = sess.run([train op, 1088]) 
duration = time.time() - start time 


assert not np.isnan(loss value), 'Model diverged with loss = NaN' 


if step % 10 == 0: 

num examples per step - FLAGS.batch size * FLAGS.num gpus 
examples per sec - num examples per step / duration 

sec per batch - duration / FLAGS.num gpus 


format str = ('%8: step td, loss = %.2# (%.1f examples/sec; %.3f ' 
'sec/batch) ') 

print (format_str % (datetime.now(), step, loss value, 
examples per sec, sec per batch)) 


if step % 100 == O0: 
summary str - sess.run(summary op) 


summary writer.add summary(summary str, step) 


# Save the model checkpoint periodically. 
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259 if step % 1000 == 0 or (step + 1) == FLAGS.max_steps: 

260 checkpoint path = os.path.join(FLAGS.train dir, 'model.ckpt') 
261 saver.save(sess, checkpoint path, global step-step) 

262 

263 

264 def main(argv=None): 4 pylint: disable-unused-argument 

265 cifarl0.maybe download and extract () 

266 if tf.gfile. Exists (FLAGS.train dir): 

267 tf.gfile.DeleteRecursively(FLAGS.train dir) 

268 tf.gfile.MakeDirs(FLAGS.train dir) 


269 train() 

270 

271 

272 if __ name == ' main ': 


273 tf.app.run() 


273 17, А5) TensorFlow. 

26 ~ 269 ÍF, JAZ) TensorFlow 后 首先 调用 main 函数 ， 下 载 CIFAR-10 dataset, 1 Hose. 

141 行 ， 使 用 默认 图 。 

144 一 146 行 ， 全 局 步 数 变 量 。 

149 一 150 行 ， 计 算 每 个 epoch 需要 多 少 个 batch。 

161 行 ， 使 用 随机 梯度 下 降 优 化 算法 。 

164 一 184 行 ， 把 一 个 batch 训练 数据 分 配 到 多 个 GPU 上 ， 每 个 GPU 上 的 网 络 都 完全 
一 样 ， 叫 做 一 个 tower， 初 始 参数 w 和 也 是 一 样 的 ， 做 feedforward， 计 算 Loss 和 梯度 。 

18747, СРО 上 的 每 个 tower 计算 完毕 以 后 ， 把 梯度 保存 下 来 ， 放 回 cpu:0 上 计算 平均 
梯度 。 

200 行 ， 应 用 平均 梯度 。 

65 一 98 行 ,计算 每 个 GPU 上 的 Loss， 也 就 是 每 个 tower 的 Loss， 计 算 方 法 和 单 GPU 
一 样 。 

101 ~ 136 行 ,计算 平均 梯度 ， 就 是 就 平均 值 。 
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运行 方式 是 分 别 执行 以 下 代码 : 


python cifarl0 trian.py 
python cifar10 multi сри trian.py 


这 两 段 程序 在 CPU 和 GPU 上 进行 训练 ， 然 后 就 可 以 看 到 运行 结果 了 。 


6.10 小结 


卷 积 神经 网 络 最 重要 的 核心 部 分 就 是 卷 积 核 。 在 很 多 复杂 的 应 用 中 ， 对 于 同一 个 输入 
的 向 量 由 不 同 尺寸 的 卷 积 核 扫 描 ， 产 生 不 同 的 特征 描述 Feature Map 输入 到 后 端 ， 也 可 能 在 
不 同 的 层 用 不 同 尺寸 的 卷 积 核 去 提取 特征 。 

卷 积 神经 网 络 的 特征 就 是 有 卷 积 层 ， 进 而 带 来 的 好 处 就 是 收敛 速度 比较 快 并 且 泛 化 能 
力 会 显得 比较 好 。 卷 积 核 的 优良 特性 使 得 它 在 很 多 网 络 中 都 有 使 用 ， 它 可 能 会 由 于 模型 上 
的 需要 仅仅 出 现在 一 个 网 络 中 的 某 几 层 的 位 置 ， 也 可 能 会 在 一 个 模型 的 多 层 中 出 现 ， 总 而 
言 之 应 用 起 来 还 是 非常 灵活 的 。 而 是 不 是 用 了 卷 积 核 的 网 络 都 会 被 称 作 卷 积 神经 网 络 这 个 
倒是 未 必 ， 至 少 很 多 网 络 由 于 其 中 应 用 了 许多 其 他 的 结构 而 使 得 网 络 体现 出 来 很 多 更 为 独 
特 的 特性 的 时 候 ， 命 名 时 会 更 倾向 使 用 标新立异 的 方式 ， 后 面 我 们 看 看 深度 残 差 网 络 就 知 
道 了 。 

在 看 完了 BP 网 络 和 CNN 网 络 在 TensorFlow 中 的 实现 程序 后 你 可 能 会 发 现 和 你 以 前 见 
过 的 Python 程序 有 那么 一 丁点 不 一 样 。 因 为 TensorFlow 有 它 自己 的 框架 和 体系 ， 会 用 它 自 
己 更 适 配 的 方式 来 表达 描述 过 程 ， 希 望 大 家 在 这 个 过 程 中 好 好 体会 它 的 妙 处 。 
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综合 问题 


拥有 极 高 VC 维 的 神经 网 络 的 诞生 给 机 器 学 习 界 注入 了 一 股 清流 ， 尤 其 是 在 大 规模 计 
算 机 并 行 计算 能 力 与 日 俱 增 的 时 代 。 围 绕 着 深度 学 习 所 做 的 研究 现在 在 国内 外 很 多 大 学 都 
在 进行 ， 当 然 了 ， 做 得 最 好 的 还 是 像 CMU ( 卡 内 基 梅 隆 大 学 )、MIT( 麻 省 理工 学 院 )、 普 林 
斯 顿 大 学 等 这 些 世界 顶级 的 大 学 。 最 前 沿 、 最 尖端 的 基础 问题 研究 还 是 要 看 这 些 大 学 的 项 
级 实验 室 的 教授 和 博士 们 发 表 的 论文 ， 或 者 谷歌 、 微 软 等 这 些 世 界 顶 级 人 工 智 能 公司 的 研 
究 室 发 表 的 相关 论文 或 著作 。 而 对 于 一 些 他 们 早已 研讨 过 的 问题 ， 那 些 已 经 成 为 深度 学 习 
入门 中 需要 注意 的 问题 ， 则 需要 我 们 逐一 强调 一 下 。 本 章 将 介绍 这 些 基础 问题 。 


74 并 行 计算 


并 行 计算 是 用 来 加 快 深度 神经 网 络 训练 的 最 直接 的 方式 了 。 对 于 深度 神经 网 络 来 说 ， 
我 们 最 终 需 要 得 到 的 东西 是 一 个 网 络 拓扑 结构 和 各 个 节点 上 输入 的 权 值 矩阵 。 

以 一 个 小 规模 的 全 连接 网 络 为 例 , 假设 有 5 层 ， 每 层 10 个 节点 ， 输 入 向 量 有 1000 H, 
最 后 一 层 是 SOFTMAX 层 。 那 么 这 个 网 络 中 一 共有 多 少 个 权 值 需要 被 训练 出 来 呢 ? 


ШЫ 
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第 一 层 就 是 10 x 1000 个 ， 第 二 层 、 第 三 层 、 第 四 层 都 是 10x 10， 第 五 层 是 10 x 1 个 ， 
这 样 加 起 来 一 共 是 10 000+300+10=10 310 个 维度 。 假 设 在 训练 的 过 程 中 平均 每 次 在 一 个 维 
度 上 挪动 0.001 来 做 一 次 迭代 ， 挪 动 000 次 恰好 挪动 到 “合适 ”的 位 置 ， 那么 需要 挪动 多 
少 次 呢 ? 用 乘法 算 一 下 应 该 是 20 620 000 次 。 在 一 个 独立 的 进程 中 ， 一 次 挪动 和 下 一 次 挪 
动 之 间 是 串 行 的 ， 也 就 是 说 需要 一 共 等 待 2062 万 次 的 挪动 时 间 才 能 完成 这 个 训练 ， 而 且 这 
个 挪动 毫 无 疑问 是 包含 导数 计算 的 时 间 的 。 可 是 如 果 有 10 个 CPU 内 核 ， 那 就 可 以 有 10 个 


进程 来 处 理 这 个 过 程 ， 每 个 CPU 内 核 处 理 其 中 的 权 值 更 新 即 可 ， 这 个 迭代 的 速度 理论 上 
可 以 提高 10 倍 。 


CPU(Multiple Cores) GPU(Hundreds of Cores) 
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对 于 一 些 更 大 的 网 络 来 说 ， 这 简直 就 是 灾难 ， 在 和 一 些 同行 交流 的 过 程 中 我 就 听 过 他 
们 对 这 种 问题 的 吐槽 :“ 用 CPU 运算 简直 就 是 折磨 ， 训 练 一 次 从 理论 上 需要 一 年 时 间 ， 也 
就 是 说 一 年 后 才 知 道 结果 究 况 怎么 样 ”"。 确 实 , MO CPU 计算 ， 即便 是 用 32 核心 或 者 48 
核心 的 高 配 工作 站 也 会 显得 捉襟见肘 。 在 平时 我 们 做 练习 ， 用 CPU 熟悉 TensorFlow 的 过 程 
一 般 是 无 所 谓 的 ， 然 而 在 工业 上 如 果 做 项 目 用 CPU 就 显得 有 点 太 业 余 了 。 

现在 业界 比较 成 熟 的 是 使 用 英 伟 达 (NVIDIA) 提供 的 解决 方案 ， 一 种 在 显卡 GPU 中 使 
用 的 并 行 计 算 单 元 一 一 CUDA (Compute Unified Device Architecture)。 在 一 块 带 有 CUDA 
功能 的 显卡 中 ， 带 有 数 以 千 计 的 CUDA 内 核 (相当 于 CPU 内 核 )， 见 下 表 : 


us BREN (GE) 
Go лш] 


一 般 来 说 ，CUDA 核心 数量 越 多 ， 其 并 行 计 算 能 力 越 强 ， 同 等 情况 下 训练 速度 越 快 。 
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而 显存 越 大 的 显卡 对 于 训练 大 样本 集 的 数据 越 有 好 处 ， 因 为 在 训练 的 时 候 样本 数据 是 需要 
拷贝 到 显存 当中 去 的 ， 如 果 你 的 样本 集 很 大 的 话 会 直接 撑 爆 显存 导致 无 法 训练 。 当 然 ， 除 
了 这 些 指 标 以 外 还 需要 参考 显存 位 宽 、GPU 主 频 等 影响 运算 速度 的 因素 。 





CUDA 作为 英 伟 达 公 司 的 平台 级 产品 架构 ， 它 有 丰富 的 开发 文档 ， 支 持 复杂 的 并 行 计 
算 编 程 。 Aan rate Ei TensorFlow 使 用 者 来 说 ， 这 些 东西 大 可 不 必 去 看 ， 
因为 在 底层 的 驱动 层面 不 论 是 TensorFlow, Caffe, Torch 还 是 其 他 的 框架 都 为 我 们 提供 了 
几乎 是 透明 化 的 解决 方案 ， 只 需要 在 程序 中 调用 АРІ 的 时 候 做 少量 修改 就 可 以 使 用 GPU 的 
计算 资源 了 ， 非 党 方便。 我 们 在 本 书 中 也 给 了 几 个 不 同 的 例子 来 说 明 。 


ADELFRATED OPU-ADEELERATED 
COMPUTING APPLICATIONS. 


PASCAL #2 
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在 多 卡 环境 下 ， 比 如 4 路 或 者 8 路 GPU 的 工作 站 (服务 器 ) 自己 不 会 做 也 没关系 ， 因 
为 目前 在 中 国 大 陆 也 有 很 多 英 伟 达 的 认证 授权 企业 在 做 相关 的 工程 ， 包 括 安装 显示 卡 、 
CPU、 内 存 、 风 墙 ， 甚 至 在 必要 的 情况 下 安装 液 冷 系统 也 是 可 以 的 。 可 以 前 往 http://www. 
nvidia.cn/object/where-to-buy-tesla-cn.html 查看 一 下 官方 认证 的 合作 公司 ， 并 选取 合适 的 机 
构 作 为 供 货 商 。 大 的 机 构 像 戴尔 、 惠 普 、 华 为 等 这 些 自 不 必 说 ， 小 的 机 构 也 可 以 提供 一 些 
价 廉 物 美的 零售 方案 。 


Elite MARAA T ii 


HAME 2018118931 








作为 企业 技术 人 员 或 研究 人 员 ， 我 们 应 该 把 更 多 的 精力 放 在 针对 业务 的 研究 和 改进 中 
去 ， 纯 硬件 解决 方案 的 工程 级 问题 还 是 交 给 专业 的 人 去 做 好 了 ， 充 分 享受 社会 大 分 工 为 我 
们 带 来 的 生产 力 提升 的 红利 。 


7.2 ”随机 梯度 下 降 


在 前 面 的 学 习 中 我 们 了 解 到 ， 不 管 是 做 线性 回归 的 学 习 还 是 深度 学 习 的 权 值 计算 ， 都 
用 到 了 梯度 下 降 算法 (gradient decent)。 在 这 种 算法 中 ， 就 是 将 待定 权 值 w 各 项 之 前 的 系数 
先 算出 来 ， 再 沿 着 梯度 下 降 的 方向 移动 各 个 w 的 每 个 维度 值 。 

然而 在 大 量 训 练 样本 存在 的 情况 下， 要 计算 偏 导数 的 大 小 需要 的 计算 量 是 非常 惊人 的 。 


don OLoss 


因为 我 们 在 过 程 0w%) ”=(w)” 一 7 "Qu, Й — ， 损 失 函 数 是 如 下 这 样 的 : 


Loss = 2D -y, ji 
ial 


Ж п 表示 一 共有 nn 个 样本 ， 在 求 偏 导 数 的 过 程 中 ，n 个 样本 都 要 参与 计算 。 可 是 
往往 非常 大 ， 比 如 数 万 或 者 数 百 万 ， 每 个 样本 的 x 维度 也 是 数 万 到 数 百 万 不 等 ， 这 种 计算 
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量 需 要 花费 大 量 的 时 间 。 所 以 这 种 情况 下 就 需要 有 一 种 方式 能 够 缩短 这 种 计算 时 间 ， 办 法 
就 是 使 用 随机 梯度 下 降 算法 (stochastic gradient decent)» 

随机 梯度 下 降 算法 其 实 并 没有 什么 新 奇 的 地 方 ， 它 的 理论 基础 就 是 统计 学 中 的 抽样 
(sampling) 概念 。 也 就 是 说 ， 我 们 可 以 认为 所 有 的 这 些 作为 训练 样本 的 输入 向 量 一 一 不 管 
它 是 图 片 还 是 语音 ,或 者 是 其 他 的 什么 数据 类 型 ,我 从 中 提取 出 一 部 分 样本 来 ,这些 样本 
中 的 特征 已 经 可 以 在 一 定 程度 上 代表 整个 完整 训练 集 的 特征 了 。 就 像 归 纳 总 结 一 下 人 的 特 
征 ， 其 实 不 用 把 世界 上 所 有 的 人 都 进行 一 遍 调 查 ， 可 以 只 取 有 代表 性 的 一 部 分 样本 ， 覆 六 
所 有 的 人 种 、 年 龄 、 性 别 …… 再 对 他 们 进行 归纳 就 可 以 了 。 这 种 理论 同样 可 以 应 用 于 深度 
学 习 中 的 训练 过 程 的 样本 选择 。 


Әд £693. 806m pm 
GS 特性 不 能 一 个 一 个 查 2O, 9m HA 
LN 进行 归纳 就 好 了 





( 见 彩 插 ) 


现在 在 TensorFlow 里 面 我 们 可 以 指定 一 个 Batch 的 Size 来 规定 每 次 被 随机 选择 参与 归 
纳 的 样本 数量 。 在 本 书 的 代码 中 有 多 处 都 写 到 了 关于 batch_size 参数 的 赋值 问题 ， 说 的 就 是 
这 个 问题 。 这 样 一 个 完整 的 训练 就 会 变 成 多 轮 (epoch) 训练 ， 每 一 轮训 练 不 再 输入 所 有 的 
样本 ， 而 是 随机 抽取 其 中 的 一 部 分 作为 训练 样本 ， 数 量 由 batch_size 来 给 定 ， 这 就 是 最 大 的 
区 别 。 

这 样 的 好 处 就 像 刚才 我 们 说 的 那样 ， 可 以 大 大 加 快 训练 速度 ， 而 且 完 整 的 数据 集 越 大 ， 
这 个 效果 越 明 显 。 而 且 小 尺寸 的 数据 集 也 使 得 很 多 本 来 无 法 放 进 GPU 的 训练 成 为 可 能 ， 一 
次 只 拷贝 一 部 分 样本 到 GPU 当然 压力 比 全 样本 要 小 得 多 了 。 

不 过 这 种 “以 偏 概 全 ”的 方案 也 是 有 代价 的 ， 那 就 是 由 于 每 次 选择 的 都 是 部 分 样本 ， 
所 以 这 部 分 样本 的 特征 和 整体 样本 的 特征 实际 上 是 有 差别 的 。 这 个 也 好 理解 ， 就 好 比 ， 如 
RA 1000 个 小 球 ， 分 别 标记 着 1 ~ 1000 的 数字 ， 拿 出 其 中 所 有 的 小 球 并 把 数字 求 平均 值 
那 就 是 500.5。 但 是 你 从 中 抽取 100 个 小 球 ， 再 求 平均 值 的 话 可 就 有 了 偏差 了 ， 毕 竞 这 种 抽 
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取 的 随机 性 会 让 抽取 的 结果 与 真实 的 情况 有 差异 ， 极 端 情况 就 是 抽取 1 个 球 求 平均 值 。 

如 果 这 些小 球 上 所 标记 的 数字 是 一 个 以 上 为 中 心 ， 以 o 为 标准 差 的 正 态 分 布 的 实数 的 
话 ， 可 能 会 让 结果 偏差 略 小 一 些 ， 然 而 终究 是 有 偏差 的 。 所 以 这 种 情况 也 就 导致 每 次 对 权 
值 w 更 新 的 时 候 不 一 定 是 向 着 损失 函数 最 优化 的 方向 前 进 ， 可 能 会 绕 远 , 但 总 体 来 说 还 是 
会 向 最 优化 的 方向 前 进 。 这 没有 什么 神秘 的 地 方 ， 其 实 就 是 用 精确 度 换 时 间 的 一 种 代 偿 方 
案 ， 大 家 做 个 了 解 也 就 可 以 了 。 在 目前 绝 大 部 分 的 工程 训练 中 都 会 采用 随机 梯度 下 降 算 法 ， 
应 该 说 它 不 完美 ， 但 是 是 性 价 比 很 好 的 一 种 方案 。 


7.3 ”梯度 消失 问题 


梯度 消失 问题 ( vanishing gradient) 是 在 早期 的 BP 网 络 中 比较 常见 的 问题 。 这 种 问题 
的 发 生 会 让 训练 很 难 进行 下 去 ， 看 到 的 现象 就 是 训练 不 再 收 倒 一 озу 过 早 地 不 再 下 降 ， 
而 精确 度 也 过 早 地 不 再 提高 。 我 们 还 是 来 看 一 个 具体 的 例子 : 





1 


n-wxth  /(д)= 





1 
2, = WX, +b. (2,) =— 
PS 2 二 f(z Te 


就 是 两 个 节点 首尾 相 接 组 成 的 神经 网 络 (应 该 说 连 “ 线 ”都 算 不 上 )， 这 其 中 位 于 网 络 
前 部 的 w, 的 更 新 就 需要 计算 损失 函数 对 w 的 偏 导数 ， 在 这 个 函数 里 ， 根 据 链 式 法 则 我 们 
能 够 得 到 ， 前 面 的 这 个 神经 元 的 w 的 导数 是 这 样 一 个 表达 式 : 


Of (x) _ 0f (Wb Wb) 02, Ox, Oz, 
Ow, 22, Qx, Oz, Ow, 


of. „b, Ww,,b, . я 
其 中 我 们 可 以 发 现 s Ohne) m S SE WEE ЕА Sigmoid 函数 上 的 斜率 。 


Sigmoid 函数 我 们 肯定 不 陌生 了 ， 前 面 已 经 提 过 很 多 次 了 。 
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这 个 函数 有 个 最 大 的 特点 ， 就 是 我 们 可 以 看 到 在 自 变量 大 于 4 和 小 于 -4 的 这 两 段 几乎 
д ,b,, Ws 

呈 水 平 状态 一 一 导数 接近 0。 这 就 比较 麻烦 了 ， mp А а # 其 中 的 任何 一 个 
处 于 这 一 段 的 话 ， 会 使 整个 导数 的 值 也 是 接近 0 的 状态 ， 这 样 误差 在 向 前 传递 的 过 程 中 会 
导致 网 络 前 端的 w 几乎 没什么 变化 ， 因 为 导数 乘 出 来 实在 太 小 了 ， 乘 以 一 个 4 就 更 是 微 乎 
其 微 的 一 个 值 ， 而 且 网 络 层级 越 多 ， 越 往 前 的 隐藏 层 这 种 情况 就 越 精 糕 一 w 变化 就 越 慢 ， 
也 就 是 说 ， 这 一 层 没 能 学 到 什么 东西 。 这 就 是 我 们 所 说 的 梯度 消失 问题 ， 也 叫 作 梯 度 弥 散 
问题 。 


DONEAZA? B GEVT 
RA. FRLERL? ран pe 
9 





尝试 改进 的 思路 也 应 运 而 生 。 既 然 是 导数 小 导致 的 每 次 更 新 时 候 的 值 过 小 ， 那 么 导数 
大 就 应 该 是 更 新 的 数值 比较 大 ， 速 度 比较 快 。 那 无 非 就 是 要 消除 这 种 在 链 式 法 则 中 发 生 的 
连 乘 式 每 一 项 绝对 值 小 于 1 的 情况 。 因 为 绝对 值 小 于 1 的 情况 下 ， 层 级 越 多 就 意味 着 越 多 
的 绝对 值 小 于 1 的 数字 相 乘 ， 越 乘 越 小 ， 网 络 稍微 一 深 的 话 越 靠 前 的 层级 上 w 移动 的 速度 
越 慢 ， 也 就 是 学 习 率 越 低 。 也 就 是 说 在 这 个 2 层 的 网 络 中 ， 我 们 要 解决 这 样 一 个 问题 了 。 
看 一 下 这 两 个 导数 值 : 
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dx, 
dy de 
这 里 的 c' 表示 的 是 Sigmoid 函数 求 导 的 意思 ， 

a wd 1 
с(х) = с(х)(1-о(х)), RER o(x) ue ET | 
那么 要 使 得 |wo'| > 1 怎么 办 呢 ， 可 以 试 试 这 样 两 种 思路 。 
方法 1: 初始 化 一 个 合适 的 wo 


如 果 能 够 把 w 初始 化 大 一 些 是 不 是 就 能 解决 这 个 问题 了 呢 ? 似乎 这 是 个 顺理成章 的 想 
法 。 假 设 我 们 把 w 初始化 成 10， 在 Sigmoid 函数 为 0 的 地 方 ， 导 数 的 绝对 值 是 |c(O) 上 = 


当 |w|-10 的 时 候 |we'|=2.5。 这 个 值 确实 够 大 了 ,但 是 大 就 一 定好 么 ， 未 必 。 

同样 是 链 式 法 则 的 连 乘 关系 ， 原 来 是 因为 导数 太 小 导致 网 络 前 端的 w 变化 太 慢 ， 这 么 
一 改 之 后 反 过 来 了 ， 网 络 前 端的 变化 率 太 高 了 ， 一 次 的 变化 量 非常 大 。 就 拿 刚 刚 这 个 例子 
来 说 ， 如 果 有 10 层 ，10 个 2.5 相 乘 就 是 9536 左右 。 俗 话说 “过 犹 不 及 ”， 这 就 算是 一 个 很 
小 的 w 也 能 一 下 子 从 地 下 挪 到 天 上 去 ， 这 种 现象 叫做 梯度 爆炸 ( gradient explording), ttn 
作 梯 度 膨胀 。 况 且 w 在 移动 的 过 程 中 也 是 一 直 在 变化 的 ， 怎么 可 能 一 直 保 证 这 种 效果 的 持 
续 性 呢 ? 所 以 这 个 方法 没有 看 上 去 那么 美 。 

方法 2: 选 个 合适 的 激励 函数 。 

解决 这 个 问题 现在 用 的 最 为 成 熟 的 办 法 就 是 使 用 导数 值 比较 合适 的 激励 函数 了 ， 比 如 
ReLU М. ReLU 函数 在 本 书 前 面 曾经 一 笔 带 过 地 提 了 一 句 ， 现 在 我 们 就 可 以 仔细 看 看 它 
了 ， 它 的 全 名 是 Rectified Linear Units， 也 翻译 成 线性 修正 单元 激励 函数 ， 简 写 大 家 习惯 读 
作 “ 热 鲁 ” 函 数 。 你 在 跟 同行 交流 的 时 候 直 接 跟 人 家 说 “ 热 鲁 ”长 “ 热 鲁 ” 短 的 也 没有 问题 ， 
不 会 有 人 觉得 你 在 那里 露 性 。 


也 就 是 : 





i 
4 ’ 


х: -0.035340373 у: -0.035340373 


F 
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这 个 函数 的 形式 为 y=max(x,0)， 这 个 函数 在 原点 左 侧 部 分 斜率 为 0， 在 右 侧 则 是 一 条 
斜率 为 1 的 直线 。 函 数 在 x 大 于 0 的 部 分 是 呈 现 出 线性 特点 的 ， 在 小 于 0 的 时 候 则 是 一 条 
直线 ， 这 个 锋利 的 弯 折 提供 了 良好 的 非 线 性 特点 。 尤 其 注意 它 在 第 一 象限 的 这 条 直线 ， 它 
的 导数 恒 为 1， 这 是 它 的 “激活 ”状态 ; x 小 于 0 的 部 分 导数 恒 为 0， 这 是 它 的 “ 非 激活 ” 
状态 。 所 以 它 的 优点 有 两 个 应 该 是 显而易见 的 。 

其 一 ， 在 第 一 象限 中 不 会 有 明显 的 梯度 消失 问题 ， 因 为 导数 恒 为 1， 而 w 在 初始 化 的 
时 候 也 是 有 大 有 小 ， 连 乘 的 时 候 不 会 轻易 出 现 很 小 或 者 很 大 的 数值 ， 这 就 是 一 个 非常 好 的 
特性 了 。 

其 二 ， 由 于 导数 为 1， 所 以 求解 它 的 导数 要 比 求 解 Sigmoid 函数 的 导数 代价 要 小 
一 些 ， 这 里 说 的 代价 主要 是 时 间 人 代价。 前面 咱们 说 了 求 导 数 要 在 函数 的 这 个 点 上 用 


ои 8) OO 的 方法 来 求 ， 这 个 计算 的 次 数 可 就 比 直接 拿 一 个 1 出 来 麻烦 多 了 ， 万 


其 是 在 损失 函数 里 的 w 很 多 的 时 候 ， 一 次 计算 所 消耗 的 计算 资源 就 太 多 了 ， 速 度 会 变 慢 。 
因而 现在 的 工程 人 员 在 近 几 年 的 网 络 中 都 喜欢 大 量 使 用 ReLU 函数 。 在 笔者 的 工程 经 
验 中 也 是 至 少 80% 以 上 的 工程 都 是 倾向 于 优先 使 用 ReLU 函数 作为 激励 函数 的 。 


7.4 19—46 


归 一 化 问题 (normalization) 是 几乎 所 有 机 器 学 习 算法 在 开始 训练 之 前 都 要 考虑 的 问题 。 
所 请 的 归 一 化 问题 是 为 了 克服 这 样 一 种 现象 所 产生 的 应 对 方法 ， 是 什么 呢 ? 我们 看 一 个 
例子 。 

要 计算 中 国人 和 日 本 人 的 平均 收入 有 和 多少， 比较 一 下 差距 应 该 怎么 做 ? 从 统计 学 的 角 
度 来 说 ， 肯 定 应 该 是 在 中 国人 当中 随机 抽取 一 定 的 人 数 ， 再 在 日 本 人 当中 抽取 一 定 的 人 数 ， 
比如 都 是 1000 人 ， 然 后 把 他 们 的 年 薪 做 一 个 平均 值 。 至 少 从 统计 学 的 角度 来 说 ， 这 种 方式 
相对 比较 有 科学 性 和 说 服 力 。 

然后 你 会 发 现 计算 后 有 可 能 得 到 这 样 的 结果 。 

中 国人 平均 年 薪 : 55 000， 日 本 人 平均 年 薪 : 2 600 000. 

这 两 个 数字 相差 实在 是 太 大 了 一 一 相差 46 倍 多 ， 如 果 这 个 时 候 得 到 的 结论 是 日 本 人 平 
均 收 入 是 中 国人 的 47 倍 多 未 免 太 过 荒唐 了 。 要 知道 这 种 统计 在 获得 样本 的 时 候 都 是 以 当地 
的 货币 标准 为 计算 单位 的 ， 中 国人 的 平均 年 薪 55 000 单位 是 人 民 币 ,日 本 人 的 平均 年 薪 是 
2 600 000 单位 是 日 元 。 按 照 现 在 人 民 币 对 日 元 的 汇率 来 说 ， 大 约 1:16.48， 这 样 换算 下 来 中 
国人 的 平均 年 薪 大 约 可 以 核算 为 90.67 万 日 元 的 样子 。 日 本 人 平均 年 薪 大 约 仅 是 中 国人 平均 
年 薪 的 2.87 倍 一 一 这 听 起 来 就 靠 谱 多 了 。 
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frr sd 
55 000 人 民 币 元 -906 625.5 日 元 
[55000 | ART CNY -| [= | 日 元 JPY - 


作为 有 货币 汇兑 常识 的 人 来 说 ， 换 算 过 程 肯定 是 不 可 避免 的 。 然 而 在 计算 机 系统 当中 ， 
数字 是 没有 量 纲 和 单位 的 ， 只 有 一 个 具体 的 浮 点 数 或 者 定点 数 。 





*©ж®, 
人 家 是 5 分 制 的 卷子 в, FRB 
\ 





在 机 器 学 习 的 过 程 中 ， 一 个 由 于 计数 单位 的 影响 导致 分 布 范围 较 宽广 的 值 和 一 个 分 布 
范围 较 窗 小 的 值 会 在 训练 过 程 中 有 着 不 同 的 影响 能 力 ， 结 果 主 要 是 会 引起 模型 对 某 些 值 过 
于 敏感 或 者 不 敏感 ， 而 这 种 情况 其 实 是 我 们 不 愿 看 到 的 一 种 天 然 由 外 界 强加 给 系统 的 “不 
公平 ”的 情况 。 克 服 的 办 法 也 是 有 的 ， 那 就 是 使 用 归 一 化 这 样 一 个 操作 过 程 一 一 把 数据 的 
大 小 分 布 压 缩 或 框 定 在 一 个 比例 协调 的 范围 之 内 。 

常见 的 归 一 化 方法 有 线性 函数 归 一 化 (min-max scaling)， 还 有 0 均值 标准 化 (z-score 
standardization)。 目 的 都 是 为 了 让 各 维度 的 数据 分 布 经 过 “ 拉 伸 ”投射 到 一 个 相近 的 尺度 范 
围 去 。 以 线性 函数 归 一 化 为 例 
S Reli = rd 

Р asc os 

每 一 个 维度 的 数值 在 做 归 一 化 的 时 候 ， 先 用 这 个 维度 中 最 大 的 值 与 最 小 值 的 差 来 作为 
分 母 ， 用 这 个 值 与 最 小 值 的 差 值 作 为 分 子 ， 这 样 得 到 一 个 比值 ， 这 个 比值 就 是 归 一 化 的 结 
果 值 。 每 一 个 数值 经 过 这 样 一 个 投射 就 都 变 成 0 到 1 之 间 的 数值 了 ， 这 个 值 表示 自己 在 整 
个 样本 中 该 维度 所 处 的 位 置 比例 。 

数据 的 分 布 大 概 会 呈现 下 图 这 样 一 种 变化 的 效果 ， 左 边 的 这 一 幅 图 是 ху 两 个 维度 的 原 
始 数据 ; 中 间 一 幅 图 是 做 过 0 中 心 化 的 ， 也 就 是 x 维 度 和 ?维度 的 值 都 各 自 减 去 各 自 的 平 
均值 ， 这 样 得 到 一 堆 有 正 有 负 的 值 上 且 0 在 中 心 位 置 ; 最 右边 这 一 幅 图 就 是 归 一 化 以 后 的 图 ， 
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很 明显 数据 分 布 的 矩形 轮廓 不 再 是 一 个 狭长 的 形状 而 是 趋 近 于 正方 形 。 


-5 





-10 
-10 


在 深度 学 习 中 也 同样 会 用 到 归 一 化 的 问题 ， 常 见 的 是 使 用 一 种 叫 Batch Normalization 
的 归 一 化 过 程 ， 也 翻译 成 批 归 一 化 。 在 整个 网 络 中 的 任何 一 层 都 可 以 加 入 批 归 一 化 过 程 ， 
等 于 将 每 层 网 络 都 看 成 一 个 独立 的 分 类 模型 ， 这 样 可 以 让 网 络 尽 可 能 避免 没有 数据 分 布 的 
不 同 所 带 来 的 尴 众 。 在 本 书 中 的 例子 里 没有 涉及 相关 的 内 容 ， 不 过 这 部 分 代码 也 很 简单 ， 
TensorFlow 里 就 只 需要 加 入 类 似 一 条 语句 就 可 以 了 。 
def dense_batch_relu(x, phase, scope): 
with tf.variable scope(scope) : 
hl = tf.contrib.layers.fully connected(x, 100, 
activation fn-None, 
scope='dense') 
h2 = tf.contrib.layers.batch norm(hi, 
center=True, scale=True, 
is training-phase, 
scope='bn') 
return tf.nn.relu(h2, 'relu') 


在 工程 中 加 入 Batch Normalization 可 以 在 一 定 程 度 上 避免 过 拟 合 的 发 生 ， 加 强 泛 化 能 
力 。 虽 然 不 是 在 每 个 项 目 中 都 有 明显 的 效果 ， 但 至 少 是 一 个 值得 我 们 注意 的 地 方 。 


7.5 参数 初始 化 问题 


在 搭建 一 个 深度 神经 网 络 后 ， 在 开始 正式 进行 训练 之 前 ， 有 一 件 事情 是 不 得 不 做 的 ， 
那 就 是 要 对 整个 网 络 中 所 有 的 待定 系数 进行 初始 化 。 那 么 问题 来 了 ， 究 竟 应 该 把 这 些 权 值 
w 赋值 为 多 少 合适 呢 ? 

先 说 结论 吧 ， 一 种 相对 来 说 业界 比较 认可 的 说 法 是 把 整个 网 络 中 所 有 的 vw 初始 化 成 以 
0 为 均值 x、 以 某 个 很 小 的 值 o 为 标准 差 的 正 态 分 布 的 方式 通常 效果 会 比较 好 。 

在 具体 初始 化 的 时 候 最 常见 的 就 是 用 以 0 为 均值 x、 以 1 为 方差 о 的 分 布 来 随机 初始 化 
的 ， 这 种 分 布 也 可 以 记 做 N(0,1)。 代 码 这 么 写 就 可 以 : 


weights = tf.Variable(tf.truncated normal([3, 2], stddev-1.0), name='weights') 
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还 有 一 种 常见 的 初始 化 方法 是 用 以 0 为 均值 4、 以 1 为 方差 o 的 分 布 生成 后 除 以 当前 层 
的 神经 元 个 数 的 算术 平方 根来 获得 并 初始 化 。 代 码 这 么 写 : 

weights = tf.Variable( 

tf.truncated normal([500, 25], 
stddev-1.0 / math.sqrt(500)), 
name='weights') 

也 有 其 他 很 多 种 初始 化 方法 ， 不 过 大 多 数 都 是 高 斯 分 布 〈 正 态 分 布 ) 的 类 似 或 者 变种 的 
方式 。 

关于 应 该 如 何 初 始 化 这 些 w 更 为 合适 的 讨论 在 业内 也 是 由 来 已 久 ， 也 是 属于 一 种 见 仁 
见 智 的 思路 碰撞 过 程 。 目 前 普遍 得 到 认可 的 就 是 我 们 说 的 这 种 基于 高 斯 分 布 的 初始 化 方法 。 
如 果 非 要 问 有 没有 更 深层 次 的 理论 指导 思想 ， 应 该 说 也 是 有 的 ， 思 路 大 概 是 这 样 的 ， 在 一 
个 模型 中 对 于 输入 的 各 个 维度 的 权重 设置 相当 于 是 一 种 重视 程度 或 者 采纳 程度 的 表示 ， 而 
在 一 个 模型 中 那些 对 判断 结果 需要 作为 非常 重要 的 正面 因素 采纳 的 是 少数 ， 需 要 作为 非常 
重要 的 负面 因素 采纳 的 也 是 少数 ， 而 其 他 大 部 分 输入 的 信息 可 能 就 是 那些 比较 中 庸 的 ， 对 
判断 结果 影响 都 比较 小 的 因素 而 这 部 分 又 最 多 。 

有 一 些 统计 学 基础 或 者 数据 认 知 素养 的 朋友 应 该 会 有 所 了 解 ， 自 然 界 的 大 部 分 数据 的 
统计 分 布 都 呈现 出 高 斯 分 布 的 特点 ， 这 确实 是 一 个 非常 神奇 而 且 有 趣 的 特点 。 简 单 说 原因 
是 这 样 ， 不论 一 个 单 体 数 据 的 分 布 特点 如 何 ， 在 大 量 单 体 数据 全 加 后 的 宏观 数据 表现 都 会 
呈现 出 高 斯 分 布 的 特点 。 大 概 的 理解 是 这 样 的 : 这 些 单 体 数 据 的 分 布 虽然 呈现 各 种 形态 的 
特征 ， 但 是 在 随机 过 程 中 这 些 分 布 彼此 蚕 加 ， 同 时 出 现 极端 样 态 的 概率 是 非常 小 的 ， 而 大 
多 数 时 候 你 通过 观测 会 发 现 这些 笃 加 的 结果 仍旧 会 使 得 它们 对 外 表现 出 来 的 值 是 一 个 在 单 
体 中 处 于 最 “平均 ”状态 的 值 ， 而 这 个 值 被 观测 到 的 概率 最 大 。 在 高 斯 分 布 这 种 概念 进化 
的 过 程 中 ， 不 仅仅 是 高 斯 ”， 还 有 他 之 前 的 一 代 一 代 的 数学 家 付出 过 辛勤 的 劳动 ， 例 如 棣 莫 


© Johann Carl Friedrich Gauss ( 1777 年 4 月 一 1855 年 2 月 )， 德 国 著名 数学 家 、 物 理学 家 、 天 文学 家 、 大 地 测 
RFK. 
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弗 ” 、 拉 普 拉 斯 ”、 柯 西 8 、 切 比 雪夫 8 等 一 大 批 数学 界 顶 级 大 师 ， 这 都 是 在 大 学 期 间 让 我 们 又 
爱 又 恨 的 一 批 数学 元 老 们 。 在 这 条 探索 的 道路 上 同时 留 下 了 很 多 宝贵 的 财富 ， 其 中 最 著名 
的 就 是 中 心 极限 定理 ” 。 中 心 极限 定理 的 内 容 就 是 用 数学 的 语言 描述 我 刚刚 说 的 那 一 堆 大 白 
话 一 一 任何 独立 随机 变量 和 的 极限 分 布 为 正 态 分 布 。 





a a 
n 


所 以 也 就 从 学 术 的 角度 解释 了 为 什么 我 们 平时 看 到 的 任何 一 种 事物 都 是 中 庸 的 比较 多 ， 
极端 的 比较 少 ,一 个 地 区 人 群 的 收入 分 布 、 一 个 地 区 成 人 人 群 的 身高 分 布 、 一 个 城市 人 口 
的 寿命 分 布 等 通常 都 是 近似 地 服从 高 斯 分 布 …… 既 然 如 此 ， 那 么 也 有 足够 的 理由 假设 在 一 
个 模型 的 训练 过 程 中 ， 输 入 的 向 量 既 然 是 没有 经 过 什么 特殊 特征 提取 的 自然 的 信息 ， 那 么 
这 些 信息 中 应 该 也 是 会 各 自 有 着 其 自己 的 重要 程度 。 那 么 一 个 向 量 中 的 各 个 维度 提供 的 信 
息 里 ， 特 别 具 有 区 分 价值 的 东西 或 者 说 特征 是 少数 ， 而 大 部 分 信息 的 特征 性 不 太 明 显 ， 自 
然 对 于 他 们 的 采纳 程度 也 会 呈现 出 相应 的 不 同 。 这 大 概 就 是 最 根本 的 原因 了 。 不管 怎么 样 ， 
在 笔者 经 历 的 各 种 项 目 中 以 0 为 均值 4、 以 1 为 方差 o 的 分 布 生成 后 除 以 当前 层 的 神经 元 个 
数 的 算术 平方 根来 初始 化 的 情况 还 是 比较 多 的 。 

关于 在 不 同 的 场景 中 ， 权 重 初始 化 也 完全 可 能 有 差别 ， 背 后 也 有 着 场景 中 独特 的 理论 
依据 和 基本 令 人 信服 的 实验 结果 佐证 。 诸 如 这 些 事例 大 家 感 兴趣 就 多 去 翻阅 一 些 相 关 的 论 
文 吧 ， 数 量 也 不 在 少数 。 


7.6 正则 化 


正则 化 (regulization) 是 在 机 器 学 习 中 一 个 常见 的 概念 ， 不 仅仅 是 在 深度 学 习 中 ， 在 传 
统 的 机 器 学 习 中 也 是 有 的 。 单 纯 从 名 字 上 确实 不 太 好 理解 这 个 正则 化 到 底 要 干什么 ,不 过 


Ө ре Moiver,Abraham ( 1667 年 5 月 一 1754 年 11 А), 法 国 - 英 国 数学 家 。 

© Pierre-Simon Laplace ( 1749 年 3 月 一 1827 £3 H), 法 国 分 析 学 家 、 概 率 论 学 家 和 物理 学 家 ， 法 国 科 学 院 
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定理 。 
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没关系 ， 它 的 意义 也 比较 简单 ， 一 听 就 能 听 明 白 。 

在 机 器 学 习 中 ,我 们 是 通过 大 量 样本 放 和 人 模型 中 训练 得 到 待定 系数 的 ， 而 不 论 是 哪 种 
模型 ， 其 实 我 们 都 希望 这 种 模型 在 精确 的 前 提 下 尽 可 能 简洁 。 请 注意 ， 这 里 说 的 精确 可 不 
是 说 在 测试 集 上 精确 就 够 了 ， 是 指 其 泛 化 能 力 要 好 ， 也 就 是 说 在 验证 集 以 及 其 他 测试 集 上 
同样 要 有 好 的 表现 。 

不 知道 大 家 有 没有 注意 过 ， 我 们 在 日 常生 活 中 有 这 样 一 个 经 验 ， 那 就 是 对 于 观察 到 的 
各 种 认 知 对 象 来 说 ， 描 述 共性 的 东西 越 抽象 、 越 简洁 ， 其 泛 化 性 也 就 越 好 ; 相反 ， 越 是 精 
确 描述 个 体 的 东西 ， 通 常 “ 个 性 化 ”的 特点 就 非常 明显 ， 越 具体 、 越 复杂 ， 泛 化 性 也 就 越 
差 。 无 论 是 归纳 和 描述 人 、 猫 、 狗 这 类 动物 ， 还 是 飞机 、 轮 船 、 汽 车 这 种 工业 机 械 ， 还 是 
更 为 抽象 的 种 类 对 象 ， 比 如 球体 、 物 质 等 ， 泛 化 性 越 好 的 东西 就 越 抽 象 且 简 洁 。 

例如 ， 我 们 在 描述 一 个 事物 ( object)， 说 这 个 东西 是 “ 方 的 "， 那 么 通常 是 指 这 个 物体 
的 投影 外 形 是 有 四 条 边 组 成 ， 其 中 两 两 平行 ， 并 且 两 两 垂直 。“ 方 的 ”这 个 词 的 描述 就 非常 
简洁 ， 而 描述 的 内 容 则 是 忽略 掉 大 小 、 材 质 、 重 量 、 颜 色 等 诸多 性 状 的 。 而 如 果 叙 述 “ 正 
方形 手帕 ”这 样 一 个 词汇 ， 描 述 的 内 容 就 变 多 了 ， 你 也 可 以 认为 参数 变 多 了 ， 而 这 个 时 候 
其 实 就 有 了 约束 性 ， 从 而 降低 了 泛 化 性 。 因 为 一 旦 你 说 “正方 形 手帕 "， 那 么 这 个 物体 首先 
材质 应 该 是 类 似 于 棉布 、 纱 绸 、 麻 丝 一 类 的 织物 ， 其 他 材质 显然 和 它 对 不 上 号 ， 正 方形 则 
表示 性 状 的 约束 更 为 严格 ,起码 给 人 的 感觉 四 条 边 的 长 短 不 会 有 明显 的 不 同 。 这 些 就 是 你 
加 入 更 多 描述 之 后 产生 的 限制 和 泛 化 性 缩小 的 过 程 。 如 果 你 再 叙述 一 个 “昨天 从 淘宝 买 的 
由 苏州 发 货 的 白色 双 面 绣 正 方形 荤 丝 手帕 "， 这 个 描述 更 为 具体 ， 当 然 参 数 也 就 更 多 ,但 是 
泛 化 性 明显 是 刚才 这 几 个 语汇 中 最 低 的 一 个 ， 你 能 用 它 来 指 代 的 事物 就 最 少 。 

刚刚 我 们 看 到 的 是 我 用 语言 描述 的 过 程 来 类 比 一 个 泛 化 性 与 简洁 程度 的 关系 。 而 正则 
化 这 一 过 程 就 是 帮助 我 们 找到 更 为 简洁 的 描述 方式 的 量化 过 程 。 先 看 我 们 对 损失 函数 的 
改造 : 


с=с,+$ |» 
n, 


这 个 就 是 改造 完毕 后 ， 带 有 正则 化 项 的 损失 函数 。 前 面 我 们 已 经 接触 过 损失 函数 这 个 
BUS Г, 这 里 的 С 是 Cost 的 简写 ， 表示 损失 。 不 过 前 面 最 初 我 们 提 到 的 损失 函数 其 实 只 有 
Go 这 个 部 分 ， 而 没有 后 面 的 部 分 ， 到 了 卷 积 神经 网 络 的 实验 中 才 加 上 了 正则 化 项 ， 而 当时 
没有 具体 讲 加 上 这 个 部 分 能 够 在 一 定 程 度 上 避免 过 拟 合 的 原理 ， 现 在 就 来 具体 讲 。 从 学 术 
上 来 讲 ， 前 半 部 分 的 损失 函数 叫 作 “经 验 风险 ”"， 后 半 部 分 的 损失 函数 (也 就 是 加 入 的 正则 
化 项 的 部 分 ) 叫 作 “ 结 构 风 险 "。 所 谓 “ 经 验 风 险 ” 就 是 指 那些 由 于 拟 合 结果 和 样本 标签 之 
间 的 残 差 总 和 所 产生 的 这 种 经 验 性 差距 所 带 来 的 风险 一 一 毕竟 差距 越 大 模型 拟 合 失效 的 可 
能 性 也 就 越 大 ， 这 当然 是 风险 ， 欠 拟 合 的 风险 ;“ 结 构 风 险 ” 就 是 我 们 刚刚 提 到 的 那 种 概念 
了 ， 我 们 希望 这 种 描述 能 够 简洁 来 保证 其 泛 化 性 的 良好 ， 所 以 加 入 一 个 
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A 
,24vl 
这 个 因子 的 含义 就 是 把 整个 模型 中 所 有 的 权重 w 的 绝对 值 加 起 来 除 以 样本 数量 。 其 中 
A 不 是 我 们 说 的 学 习 率 (虽然 有 的 资料 上 会 用 4 做 学 习 率 的 符号 表示 )， 而 是 一 个 权重 一 一 也 
可 以 称 为 正则 化 系数 或 惩罚 系数 ， 表 示 对 这 个 部 分 有 多 “重视 ' 。 如 果 我 们 很 重视 结构 风险 ， 
或 者 说 很 不 希望 结构 风险 太 大 ， 那 我 们 就 加 大 44， 迫使 整个 损失 函数 向 着 权 值 w 减 小 的 方 
向 快速 移动 。 换 名 话说，w 的 值 越 多 、 越 大 ， 整 个 因子 的 值 就 越 大 ， 也 就 是 越 不 “简洁 ”。 
刚才 这 种 正则 化 因子 叫做 LI 正则 化 项 ， 常 用 的 还 有 一 种 叫 带 有 L2 正则 化 项 的 


Ay. 
iun 247 
形式 上 非常 接近 ， 只 不 过 就 是 w 做 了 平方 后 才 做 的 加 和 ， 当 然 这 种 情况 下 也 就 不 存在 


取 绝 对 值 的 问题 了 ， 因 为 平方 了 肯定 是 非 负数 。 带 有 正则 项 的 损失 函数 的 导数 当然 和 以 前 
只 有 经 验 风险 项 的 损失 函数 有 所 区 别 , 那么 带 有 L1 正则 项 的 导数 就 是 这 样 的 : 


C=¢,+2F |W! 
n, 


Ow ди = 


(w)' = (w)"" -n — 9 seni 


整个 导数 除了 有 前 面 经 验 风 险 对 w 求 导 贡 献 的 部 分 ， 还 有 后 面 结构 风险 对 w 求 导 贡 献 
的 部 分 。sgn(w) 表示 取 w 的 符号 ， 大 于 0 就 是 正 1， 小 于 0 就 是 -1。 带 有 L2 的 正则 项 导 
数 则 为 : 


(9 «Qi n 12w 
而 在 12 正则 项 中 的 2 Y ， 求 导 后 正好 可 以 消 掉 A 分 母 中 的 2， 计算 起 来 要 方便 


一 些 ， 这 也 是 在 构造 这 种 因子 的 时 候 特 别 设计 的 Trick. 
说 到 Trick, HRR “SIT EG”, “花招 ”之 类 ， 总 之 让 人 感觉 那么 不 地 
道 。 但 是 在 诸如 TensorFlow, Caffe, Torch 等 框架 的 实现 中 ， 有 着 众多 世界 顶级 大 神 们 的 
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潜心 研究 ， 在 处 理 很 多 细节 上 都 加 入 了 不 同 的 Trick 在 局 部 的 实现 上 进行 优化 ， 从 而 改进 精 
度 、 计 算 速 度 、 实 现 复杂 度 等 问题 。 本 来 在 深度 学 习 工 程 中 的 基本 思路 都 来 自 于 学 术 界 的 
各 种 基础 经 典 或 者 论文 ， 但 是 百 分 百 地 跟着 论文 的 方式 去 做 实现 会 有 诸多 不 便 ， 所 以 也 就 
会 取 巧 地 出 现 这 些 Trick， 而 且 很 多 情况 下 没有 一 些 Trick 的 参与 ， 甚 至 有 的 计算 会 让 人 很 
伤 脑筋 。 所 以 说 ，Trick 是 个 好 东西 …… 总 之 ， 正 则 化 项 的 加 入 会 帮助 模型 找到 描述 更 为 简 
洁 的 方式 从 而 提高 模型 的 泛 化 能 力 ， 一 定 程度 上 避免 过 拟 合 。 

最 后 我 们 从 可 视 化 的 角度 来 看 一 下 正则 化 的 实现 过 程 。 





( 见 彩 插 ) 


假设 在 一 个 模型 中 只 有 两 个 维度 w A w 作为 待定 系数 ， 最 终 的 理想 解 在 圆心 的 位 置 ， 
当然 这 里 画 出 来 的 是 在 第 一 象限 ， 但 是 实际 上 它 也 会 出 现在 别 的 位 置 。 由 于 初始 化 的 时 候 


wi 和 w, 可 能 会 在 别 的 位 置 ， 当 然 也 会 在 二 、 三 、 四 象限 中 。 在 训练 的 过 程 中 会 逐步 从 这 个 
初始 化 的 位 置 向 圆心 靠拢 。 
圆心 周围 的 一 圈 一 圈 的 线 其 实 是 损失 函数 等 高 线 ， 也 就 是 说 当 э, 和 w 所 组 成 的 坐标 






点 (waw) 在 这 一 圈 上 的 任意 位 置 都 会 产生 同样 大 小 的 损失 函数 ， 而 由 于 初始 化 位 置 不 确 
定 ， 所 以 可 能 会 出 现在 一 圈 上 的 任意 位 置 ， 那么 显然 远离 坐标 系 圆 点 (0,0) 的 (ww) 点 会 
产生 更 大 的 结构 风险 ， 因 为 其 拥有 更 大 的 w ЯП и, 值 ， 更 为 不 简洁 。 

下 面 的 黄色 圆 图 和 正方 形 分 别 表示 由 L2 A L1 所 产生 的 损失 值 ， 左 侧 是 L2 的 ， 右 侧 是 
11 的 ,边缘 的 圆圈 线 和 直线 分 别 表示 它们 各 自 的 损失 函数 值 等 高 线 。 在 加 入 这 一 项 之 后 ， 
损失 由 两 部 分 产生 ， 所 以 损失 函数 在 收敛 的 时 候 要 兼顾 “小 ”和 “精确 ”两 个 特性 。 经 验 
损失 可 以 认为 是 “精确 ”这 个 特性 ， 会 让 解 向 着 圆圈 的 重心 收敛 ， 而 结构 损失 是 “小 ”这 
个 特性 ， 会 让 解 向 着 圆 点 收敛 ， 最 后 解 会 出 现在 兼顾 两 者 都 比较 小 的 位 置 上 ， 例 如 图 中 所 
AREY w 点 。 两 个 w 值 是 可 以 画 出 来 的 ， 如 果 整 个 空间 里 有 几 百 万 个 A ЭСЕЛЕП HH 
来 ， 大 家 就 赁 想象 来 描绘 一 下 这 样 的 场景 吧 ， 在 一 个 几 百 万 维 的 空间 里 w 被 正则 化 项 拉 向 
圆 点 的 过 程 。 
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在 一 次 模型 搭建 的 过 程 中 ， 通 常 先 不 加 入 正则 化 项 ， 先 只 用 带 有 经 验 风 险 项 的 损失 函 
数 来 训练 模型 ， 当 模型 训练 结束 后 ， 再 尝试 加 入 正则 化 项 来 进行 改进 。 这 个 4 可 以 设置 为 
1、5、10、15、20…… 这 样 的 方法 往 下 试 ， 也 可 以 用 类 似 1、100、50、25 (75) 这 种 二 分 
法 的 方法 去 设置 ， 去 观察 当前 加 入 的 这 个 4 值 是 不 是 有 效 地 提高 了 准确 率 Accuracy。 这 个 
试探 的 过 程 是 没 办 法 避免 的 ， 请 大 家 注意 。 


77 ”其 他 超 参数 


超 参数 (hyper parameter) 通常 指 的 是 那些 在 机 器 学 习 算 法 训练 的 步骤 开始 之 前 设 定 的 
一 些 参数 值 ， 这 些 参 数值 通常 是 没 办 法 通过 算法 本 身 来 学 会 的 一 一 与 其 相对 的 就 是 在 算法 
中 可 以 学 会 或 学 到 的 那些 参数 ， 例 如 权 值 w 和 偏 置 Р. 


步子 太 小 走 得 慢 ， 步 子 太 大 是 走 过 了 
N 





( 见 彩 插 ) 


例如 K-Means 算法 中 的 簇 数 N， 还 有 就 是 像 在 深度 学 习 中 涉及 的 学 习 率 n， 其 实 就 是 
我 们 刚刚 看 到 的 每 次 挪动 的 过 程 中 那个 步 长 的 基数 。 这 个 7 通常 来 说 是 应 该 给 一 个 比较 小 
的 值 的 。 怎 么 理解 呢 ? 当 你 在 闭 着 眼睛 从 山谷 上 面向 山谷 中 行进 寻找 低 点 的 过 程 中 是 没 办 
法 预 判 这 个 最 低 点 的 具体 位 置 的 ， 所 以 你 只 能 通过 向 前 伸 出 脚 来 挪动 自己 的 重心 ， 如 果 你 
感觉 身体 重心 降低 了 那 就 说 明 方 向 走 对 了 ， 但 是 当 走 到 谷底 附近 的 时 候 就 有 这 样 一 个 问题 
了 一 一 如 果 你 的 步子 迈 得 太 大 ， 那 就 会 迈 过 谷底 。 

而 由 于 偏 导数 方向 改变 ， 所 以 再 次 挪动 的 时 候 会 向 着 谷底 方向 再 挪 的 ， 只 是 由 于 这 个 
步子 还 是 很 大 ， 所 以 还 是 会 迈 过 谷底 。 如 此 这 般 多 次 折返 也 还 是 到 不 了 更 低 的 谷底 位 置 ， 
就 如 图 中 的 浅 色 箭头 这 样 的 纠结 ， 所 以 7 是 应 该 设置 为 较 小 的 值 为 宜 。 
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( 见 彩 插 ) 


在 我 过 去 的 项 目 经 验 中 , у 01. 0.05, 0.01, 0.005 等 小 值 ， 至 于 在 你 的 项 目 中 取 
什么 值 更 为 合适 则 需要 经 过 比较 来 验证 。 还 是 那 句 话 ， 小 一 点 比较 好 ， 虽 然 收敛 看 上 去 比 
较 慢 ， 但 是 容易 使 Loss 值 下 到 更 低 的 位 置 。 


7.8 ”不 唯一 的 模型 


在 你 兴 冲 冲 地 使 用 深度 学 习 搭 建 的 模型 进行 训练 的 时 候 ， 你 可 能 会 发 现 一 个 问题 ， 那 
就 是 即便 你 的 训练 样本 都 一 样 ， 第 一 次 训练 出 来 的 模型 和 第 二 次 训练 出 来 的 模型 (即便 是 经 
历 同样 的 轮 数 )， 得 到 了 相近 的 损失 函数 Loss 的 值 和 准确 率 Accuracy 的 值 ， 你 也 很 可 能 得 
到 不 完全 一 样 的 模型 结构 。 

如 果 你 用 Linux 下 的 md5sum 命令 去 处 理 这 个 模型 文件 来 得 到 一 个 MD5 值 ， 你 就 会 发 
现 每 次 训练 完了 的 结果 都 不 一 样 ， 也 就 意味 着 
每 次 训练 完 的 模型 都 是 不 同 的 。 etiani 

原因 也 比较 简单 ， 因 为 训练 的 过 程 中 随机 м a 
性 的 因素 很 多 ， 几 乎 遍布 整个 训练 过 程 。 

首先 是 在 随机 梯度 下 降 算 法 中 使 用 的 Mini 
Batch， 等 于 从 众多 的 数据 中 选择 了 一 部 分 数据 
用 来 训练 模型 ， 那 么 从 Loss 较 高 的 位 置 向 哪个 
方向 移动 可 就 跟 每 一 批 次 被 选 和 人 的 样本 特征 有 
关 了 。 虽 然 我 们 知道 在 统计 学 上 这 些 样本 的 共 
同 特 征 会 帮助 网 络 进行 记忆 和 学 习 相 关 的 提取 
技巧 ， 但 从 数学 角度 来 说 这 种 收 伍 的 效率 和 方 
向 是 会 导致 不 同 的 。 
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除 此 之 外 ， 权 值 在 网 络 初始 化 的 时 候 也 是 随机 性 地 初始 化 的 。 在 不 同 的 训练 过 程 中 不 
同 的 神经 元 的 权重 会 被 初始 化 成 不 同 的 权重 , :这 也 同样 会 影响 到 不 同 的 神经 元 的 收敛 方向 。 
换 句 话说 ， 这 些 因素 导致 了 同样 的 训练 数据 训练 出 来 的 网 络 模 型 可 能 会 不 唯一 。 

但 是 ， 即 便 是 这 样 ， 我 们 仍旧 看 到 同样 数据 集 上 的 实验 用 同样 的 网 络 模 型 每 次 训练 还 
是 能 够 得 到 极为 近似 的 准确 率 Accuracy。 那 是 因为 整个 网 络 提供 的 拓扑 结构 中 所 蕴含 的 关 
系 十 分 丰富 ， 可 以 提供 不 止 一 种 方式 达成 最 终 的 模型 能 力 一 一 所 谓 “ 条 条 大 路 通 罗 马 "， 蜡 
构 的 网 络 可 能 会 提供 出 来 近似 的 解 。 在 训练 过 程 中 网 络 中 每 个 神经 元 的 收敛 方向 虽然 每 次 
可 能 不 一 致 ， 可 是 仍旧 能 够 在 迭代 中 形成 新 的 逻辑 自治 性 ， 并 最 终 完 成 训练 过 程 。 


7.9 DropOut 


DropOut 是 在 深度 学 习 训练 中 较为 常用 的 方法 ， 主 要 也 是 为 了 用 于 克服 过 拟 合 现象 。 
还 记得 过 拟 合 现 象 的 原因 是 什么 吗 ” 由 于 整个 网 络 所 蕴含 的 VC 维 非常 高 ， 所 以 导致 它 的 
记忆 能 力 非常 强 ， 很 多 个 体 上 没有 泛 化 能 力 的 特征 也 会 被 它 记忆 下 来 。 这 种 记忆 体现 出 来 
就 是 网 络 中 的 w 会 记录 下 这 些 细 枝 末节 的 特点 ， 使 得 整个 网 络 的 参数 过 多 过 大 (不 简洁 )。 
所 以 也 就 容易 使 得 那些 在 训练 阶段 被 网 络 记 住 的 这 些 特性 没 办 法 在 验证 集 上 通过 ， 进 而 使 
我 们 看 到 损失 函数 在 训练 集 上 下 降 而 在 验证 集 上 反而 上 升 的 “奇怪 ”现象 。 

DropOut 一 一 顾名思义 是 “丢弃 " ， 丢 弃 什 么 呢 ? 在 一 轮训 练 阶段 丢弃 一 部 分 网 络 节 点 。 
比如 可 以 在 其 中 的 某 些 层 上 临时 关闭 一 些 节点 ， 让 它们 不 输入 也 不 输出 ， 这 样 相 当 于 整个 
网 络 的 结构 发 生 了 改变 。 而 在 下 一 轮训 练 的 过 程 中 再 选择 性 地 临时 关闭 一 些 节 点 ， 原 则 上 
都 是 随机 性 的 。 





这 样 一 来 ， 每 一 次 训练 其 实 相当 于 网 络 的 一 部 分 所 形成 的 一 个 子 网 络 或 者 子 模型 。 而 
这 种 情况 同时 也 在 一 定 程度 上 降低 了 VC 维 的 数量 ， 减 小 过 拟 合 的 风险 。 
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在 最 终 的 分 类 阶段 将 所 有 的 节点 都 置 于 有 效 状 态 ， 这 样 就 可 以 把 训练 中 得 到 的 所 有 的 
子 网 络 “ 并 联 ” 使 用 ， 形 成 一 个 由 多 个 VC 维 较 低 的 部 分 的 分 类 模型 所 组 成 的 完整 的 分 类 
模型 。 





在 当前 的 业界 DropOut 应 用 仍然 非常 广泛 ， 在 TensorFlow 中 设置 训练 当中 的 DropOut 
比例 是 一 件 非 常 容易 的 事情 ， 只 需要 加 入 诸如 下 面 的 代码 就 可 以 了 : 


keep prob = tf.placeholder(tf.float32) 
h fcl drop = tf.nn.dropout (h_fcl, keep prob) 


所 以 你 看 ， 这 些 前 人 踩 过 的 坑 都 已 经 被 框架 完善 得 很 好 了 ， 我 们 应 用 起 来 真是 又 快捷 
又 不 容易 出 错 。 


7.10 小结 


人 们 对 于 神经 网 络 的 研究 仍旧 在 继续 ， 不 同 的 学 派 有 着 不 尽 相同 的 观点 ， 对 于 建 模 中 
的 方法 和 技巧 也 是 各 有 各 的 高 招 。 在 众多 的 问题 及 其 解决 方案 中 ， 我们 可 以 看 到 有 很 大 比 
例 都 是 为 了 处 理 过 拟 合 或 者 计算 效率 的 问题 。 这 两 个 问题 几乎 是 一 直 困扰 深度 学 习 研究 者 
的 ， 各 位 读者 朋友 也 请 时 时 刻 刻 牢记 在 心 。 

可 以 说 ， 对 于 神经 网 络 的 理论 和 技术 层面 的 研究 还 有 非常 远 的 道路 要 走 ， 有 非常 多 的 
问题 需要 克服 。 以 目前 的 理论 水 平和 计算 能 力 想 要 模拟 哪怕 是 一 个 低 智 的 人 还 差 得 相当 远 ， 
不 论 是 金钱 成 本 还 是 时 间 成 本 都 使 得 这 件 事 在 现 阶段 不 太 可 能 实现 。 

有 一 忧 就 有 一 喜 ， 那 也 就 是 说 我 们 有 很 多 可 以 做 的 事情 。 与 深度 学 习 相关 的 技术 领域 
研究 和 工程 工作 起 码 应 该 是 还 有 十 几 到 二 十 年 可 以 做 。 还 有 很 多 局 部 的 、 垂 直 的 、 小 范围 
的 应 用 可 以 落地 。 扒 起 袖子 努力 干 吧 ， 别 犹豫 。 
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循环 神经 网 络 


前 面 我 们 已 经 接触 过 反 向 传播 神经 网 络 和 卷 积 神经 网 络 ， 这 一 章 我 们 来 介绍 另 一 种 常 
用 的 神经 网 络 ， 循 环 神经 网 络 (recurrent neural networks，RNN)。 一 听 这 名 字 就 有 一 种 画 
面 油 然而 生 ， 仿 佛 千 回 百 转 纠 缠 不 清 的 感觉 。 其 实 也 并 不 是 这 样 的 ， 循 环 神 经 网 络 与 我 们 
前 面 接触 过 的 前 馈 神 经 网 络 和 卷 积 神经 网 络 最 大 的 不 同 是 有 一 些 “ 记 忆 暂 存 ”功能 ， 可 以 
把 过 去 输入 的 内 容 所 产生 的 远 期 影响 量化 后 与 当前 时 间 输 入 的 内 容 一 起 反应 到 网 络 中 去 参 
与 训练 。 这 也 就 解决 了 很 多 原来 的 前 馈 神经 网 络 和 卷 积 神经 网 络 对 于 上 下 文 有 关 的 场景 处 
理 具有 局 限 性 的 问题 。 

现在 业界 使 用 循环 神经 网 络 还 是 很 多 的 ， 尤 其 是 在 自然 语言 处 理 (natural language 
processing，NLP) 方面 应 用 很 广泛 。 在 接触 这 个 内 容 之 前 ， 我 们 先 补充 介绍 一 个 模型 一 一 
隐 马 尔 可 夫 模 型 ， 然 后 再 介绍 RNN 的 结构 与 算法 ， 最 后 通过 一 个 实践 案例 讲解 RNN 的 
应 用 。 


81 М ки RER 


隐 马 尔 可 夫 模 型 ( hidden markov model, HMM) 最 初 由 L.E.Baum 发 表 在 20 世纪 70 
年 代 一 系列 的 统计 学 论文 中 ， 随 后 在 语言 识别 、 自 然 语言 处 理 以 及 生物 信息 等 领域 体现 了 
很 大 的 价值 。 

如 果 我 们 在 网 络 去 搜 一 下 ， 还 有 一 个 概念 叫做 “马尔 可 夫 链 ”( 也 有 写成 马尔 科 夫 链 或 
者 马尔 科 夫 模型 的 ， 是 一 回 事 ， 音 译 不 同 而 已 )。 这 两 者 有 什么 关系 呢 ? 马尔 可 夫 链 是 一 个 
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数学 概念 ， 因 为 它 由 俄国 物理 学 家 兼 数学 家 安 德 烈 ， 马 尔 可 夫 8 (ALA Markov) 提出 而 得 名 。 
马尔 可 夫 链 的 核心 是 说 ， 在 给 定 当前 知识 或 信息 的 情况 下 ， 观 察 对 象 过 去 的 历史 状态 对 于 
将 来 的 预测 来 说 预测 是 无 关 的 。 也 可 以 说 ， 在 观察 一 个 系统 变化 的 时 候 ， 它 下 一 个 状态 (第 
пъ 个 状态 ) 如 何 的 概率 只 需要 观察 和 统计 当前 状态 (第 个 状态 ) 即 可 以 正确 得 出 。 另 外 
我 们 在 一 些 资料 上 会 看 到 贝 叶 斯 信念 网 络 的 分 类 模型 概念 。 隐 马尔 可 夫 链 和 贝 叶 斯 信念 网 
络 的 模型 思维 方式 有 些 接近 ， 区 别 在 于 ， 隐 马尔 可 夫 链 的 模型 更 简化 ， 或 者 我 们 可 以 认为 
隐 马 尔 可 夫 链 就 是 贝 叶 斯 信念 网 络 的 一 种 特例 。 而 且 隐 马尔 科 夫 链 是 一 个 双重 的 随机 过 程 ， 
不 仅 状态 转移 之 间 是 个 随机 事件 ， 状 态 和 输出 之 间 也 是 一 个 随机 过 程 。 


t x TM. 2 = эз» эз эзе» => X. } 
Sama 
一 > 状态 转移 | 观察 值 输出 


这 个 图 8 画 得 还 是 比较 形象 的 ， 大 致意 思 我 们 这 样 来 理解 。 

在 一 个 完整 的 观察 过 程 中 ， 有 一 些 状态 的 转换 就 是 图 中 用 虚线 圈 表 示 的 达 到 Хт TEM, 
Жыр, xx X, 到 的 状态 存在 一 个 客观 的 转化 规律 ， 但 是 我 们 没 办 法 直接 观测 到 ， 我 们 观测 
到 的 是 每 个 X 状 态 下 的 能 让 我 们 看 到 的 输出 О, а О, 到 OL 这 些 输出 值 。 我 们 需要 通过 
О, 到 О, 这 些 输 出 值 来 进行 模型 建立 和 状态 转移 的 概率 计算 。 

我 们 来 看 网 上 一 个 很 有 趣 的 例子 ， 让 人 比较 容易 理解 整个 过 程 。® 

假设 我 手 里 有 三 个 不 同 的 骨 子 ，。 

第 一 个 仍 子 是 我 们 平时 常见 的 山子 PRL 06 ), 6 个 面 ， 每 个 面 (1, 2, 3, 4, 


5, 6) 出 现 的 概率 是 二。 


BMAF NMI ( 称 这 个 散 子 为 D4 )， 每 个 面 (1，2，3，4 ) 出 现 的 概率 是 。 

B= MRF AIA (KAARTA 08), AM (1, 2, 3, 4, 5, 6, 7, 8) 出 现 
的 概率 是 = 。 

当然 ， 用 其 他 点 数 的 仍 子 原理 是 一 样 的 。 三 种 掷 骨 子 可 能 产生 的 结果 如 下 


© Андрей Андреевич Марков (1856 年 6 月 ~ 1922 年 7 月 )， 俄 国 数学 家 ， 主 要 著作 有 《概率 演算 》 等 。 


O 图 片 来 源 于 百度 图 库 。 
Ө 该 例子 来 源 于 知 乎 ， 作 者 : Yang Eninala， 链 接 : http://www.zhihu,com/question/20962240/answer/33438846, 
有 部 分 删改 。 
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三 种 贫 子 和 掷 货 子 可 能 产生 的 结果 





0000 0000 0000 

o0 өвөө 
БЕИТ FAT, ЛЕВОЕ HET, REPS, с 
3 FX TGEBERUMCE. 8C 167 8 96—71, 挑 到 每 一 个 般 子 的 概率 都 是 了 。 然后 


TNT, ATAF, 1, 2. 3, 4, 5, 6. 7, 中 的 一 个 。 不 停 地 重复 上 述 过 程 ， 
我 们 会 得 到 一 串 数字 ， 每 个 数字 都 是 1、2、3、4、5、6、7、8 中 的 一 个 。 

例如 我 们 可 能 得 到 这 么 一 串 数 字 ( 掷 山子 10 次 ): 1、6、3、5、2、7、3、5、2、4, 这 
串 数 字 叫 做 可 见 状态 链 ， 也 就 是 我 们 记录 的 这 组 数字 ， 也 是 我 们 前 面 说 的 0,。 但 是 在 隐 马 
尔 可 夫 模型 中 ， 我 们 不 仅仅 有 这 人 么 一 串 可 见 状态 链 ， 还 有 一 串 隐 含 状态 链 。 在 这 个 例子 里 ， 
КАВА FR E13 Hh A RET ЛЕЗА] pon, Ba IRA BER BT AEE: D6、D8、D8、 
D6、D4、D8、D6、D6、D4、D8。 如 果 我 们 继续 选取 和 投掷 还 能 得 到 这 个 状态 链 上 更 多 的 
节点 。 一 般 来 说 ，HMM 中 说 到 的 马尔 可 夫 链 其 实 是 指 隐 含 状 态 链 ， 因 为 实际 是 隐 含 状态 
(PENS) 之 间 存 在 转换 概率 (transition probability) 。 


在 我 们 这 个 例子 里 ，D6 的 下 一 个 状态 是 D4、D6、D8 的 概率 都 是 本 D4, D8 的 下 一 


个 状态 是 D4、D6、D8 的 转换 概率 也 都 一 样 是 ， 虽 和 然 我 们 在 示例 中 的 10 次 中 没有 画 出 来 


所 有 的 情况 ， 但 是 从 古典 概率 的 角度 来 分 析 ， 应 该 是 这 样 ， 而 实际 上 我 们 也 可 以 从 大 量 的 
掷 仍 子 实验 中 得 到 这 样 的 转换 概率 的 统计 结果 。 这 样 设 定 是 为 了 最 开始 容易 说 清楚 ， 其 实 
我 们 是 可 以 随意 设 定 转换 概率 的 。 比 如 ， 我 们 可 以 这 样 定 义 ，D6 后 面 不 能 接 D4, D6 后 面 
是 D6 的 概率 是 0.9， 是 D8 的 概率 是 0.1。 学 习 的 内 容 ， 其 实 是 有 10 个， 其 中 D4 有 2 个， 
D6 有 7 个 ， D8 有 1 个 ,等 等 。 这 样 就 是 一 个 新 的 HMM， 因 为 转换 概率 肯定 是 与 我 们 当前 
的 例子 不 同 的 。 而 同样 的 ， 尽 管 可 见 状态 之 间 没 有 直接 的 转换 概率 ， 但 是 隐 含 状态 和 可 见 
状态 之 间 有 一 个 概率 叫 作 输 出 概率 (emission probability), 
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RRA PHB, ATH (D6) 产生 1 的 输出 概率 是 < 。 产生 2、3、4、5、6 的 
概率 也 都 是 。 我 们 同样 可 以 对 输出 概率 进行 其 他 定义 。 比 如 ， 我 有 一 个 被 财 场 动 过 手 网 
AAT, MEHKE 1 的 概率 更 大 ， ж, 掷 出 来 是 2、3 4, 5, 6 的 概率 是 o 


隐 马 尔 可 夫 模 型 示意 图 





图 例 说明 ， 
| 从 一 个 隐 含 状态 到 下 
A rears 一个 隐 合 状态 的 转换 
il 
е 一 个 可 见 状态 | 一 个 可 见 状态 的 输出 
隐 含 状态 转换 关系 示意 图 


训练 一 个 HMM 模型 是 比较 容易 的 ， 那 就 是 输入 这 个 总 序列 和 这 个 О, 序列。 最 后 训 
练 是 完全 通过 统计 学 模型 完成 的 ， 而 得 到 的 模型 结果 就 是 最 后 这 个 由 D4、D6、D8 所 组 成 
的 转移 矩阵 。 准 确 说 我 们 得 到 了 两 个 矩阵 ， 一 个 是 之 间 的 表示 隐 含 状态 转移 关系 的 和 矩阵 ， 
一 个 是 X 到 О 之 间 的 输出 概率 矩阵 。 从 整个 过 程 来 看 ， 隐 马尔 可 夫 模 型 从 给 予 样 本 序列 到 
最 后 训练 出 来 两 个 矩阵 ， 应 该 是 经 历 了 一 个 非 监督 学 习 过 程 。 

一 旦 这 样 的 关系 得 到 了 ， 就 可 以 进行 一 系列 的 预测 工作 ， 例 如 在 知道 一 次 成 后 判断 
Xl 和 O 的 最 大 可 能 性 ， 当 然 ， 反 推 扎 ,和 O 也 没 问 题 。 
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8.2 RNN 和 BPTT 算法 


在 了 解 到 隐 马 尔 可 夫 模 型 之 后 ， 我 们 知道 了 这 样 一 个 事实 ， 那 就 是 通过 统计 的 方法 可 
以 去 观察 和 认 知 一 个 事件 序列 上 临近 事件 发 生 的 概率 转化 问题 。 在 RNN 模型 中 是 允许 模型 
在 训练 中 去 学 习 这 种 前 后 之 间 的 转化 影响 的 ， 只 不 过 就 是 在 RNN 模型 中 你 是 无 法 得 到 那 种 
标准 的 隐 马 尔 可 夫 模 型 训练 中 得 到 的 清晰 的 转化 矩阵 。 闲 言 少 叙 ， 我 们 来 看 看 RNN 模型 究 
况 长 什么 样 。 


8.2.1 结构 


RNN 比 起 前 馈 神经 网 络 和 卷 积 神经 网 络 来 说 显得 更 为 复杂 一 
些 ， 从 结构 上 看 就 觉得 有 那么 点 “个 性 ”。 

我 们 先 来 看 看 它 的 样子 吧 。 

传统 的 RNN 从 外 形 上 来 看 就 是 这 样 一 个 结构 。 下 面 这 个 
Vector 是 输入 向 量 ， 我 们 称 之 为 站， 右 侧 的 了 是 输出 向 量 ， 在 使 用 
的 过 程 中 和 以 前 我 们 看 过 的 卷 积 网 络 去 做 图 片 分 类 一 样 一 一 卷 积 网 
络 中 的 图 片 分 类 在 训练 的 过 程 中 实际 上 是 把 所 有 的 样本 和 标签 一 对 
一 对 放 和 网络， 图 片 在 “入 口 ”， 分 类 标签 在 “出 口 ”， 用 样本 图 片 
产生 的 拟 合 值 与 “出 口 ”标签 的 差 来 定义 残 差 ， 然 后 一 步 一 步 去 挪动 网 络 中 的 各 种 权重 w， 
使 得 残 差 向 着 减 小 的 方向 前 进 。 在 RNN 中 的 计算 方式 没有 什么 大 的 差别 ， 向 量 马 放 在 人 
口 的 位 置 ， 待 输出 的 内 容 放 在 了 的 位 置 。 中 间 单 元 (就 是 图 中 无 字 的 白 方 框 ) 中 的 待定 权重 
一 旦 设 定 ， 就 一 定 会 产生 一 个 残 差 。 : 

这 里 有 两 个 待定 系数 ， 一 个 是 W, PE Fw， 其 中 所. 会 与 头 向 量 做 乘积 ， 作 为 输入 
的 一 部 分 ， 那么 另 一 部 分 呢 ， 是 由 前 一 次 输出 的 A, 和 Wi; 相 乘 得 到 。 等 于 说 前 一 次 计算 输 
出 的 五, 需要 缓存 一 下 ， 在 本 次 头 输 入 的 时 候 参 与 运算 ， 共同 输出 最 后 的 了 。 

而 了 也 是 一 个 向 量 ， 它 是 由 前 面 输入 的 Н, 和 Wy 相 乘 所 产生 的 向 量 和 ИУ, 5 X, RET 
产生 的 向 量 加 和 后 做 SOFTMAX 得 到 的 。SOFTMAX 我 们 是 知道 的 ， 输 出 的 是 一 个 多 维 向 
量 ， 不论 有 多少 个 分 量 ， 其 加 和 都 是 1， 每 个 向 量 的 分 量 维度 是 一 个 小 于 1 的 值 ， 而 这 个 值 
是 可 以 做 概率 解释 的 。 

我 们 可 以 看 到 在 这 样 一 个 模型 里 是 蕴含 着 这 样 的 逻辑 的 ， 那 就 是 前 一 次 输入 的 向 量 
Xr 所 产生 的 结果 对 于 本 次 输出 的 结果 是 有 一 定 的 影响 的 ， 其 至 更 远 期 的 XX，、X7r 3…… 都 
“潜移默化 ”地 在 影响 本 次 输出 的 结果 。 这 中 间 的 具体 量化 的 逻辑 关系 是 需要 我 们 通过 训练 
得 到 的 ， 那 就 是 得 到 待定 的 We 和 Wy 矩阵 。 


8.2.2 ”训练 过 程 


最 简单 的 RNN 模型 在 工作 的 时 候 是 可 以 一 个 单元 独立 工作 的 ， 就 像 前 一 节 描 述 的 那样 。 
从 时 间 维 度 上 做 一 个 展开 可 以 像 下 面 这 么 画 ， 请 注意 ， 这 个 是 在 时 间 维 度 上 展开 的 ， 
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所 以 不 是 RNN 出 了 变种 ,更 不 是 说 RNN 在 物理 上 是 这 样 级 联 的 。 


Y, 
Wy 
Wy Wy 
X, Xa 


这 种 RNN 模型 训练 的 时 候 是 怎么 做 呢 ? 我 们 用 一 个 例子 来 找 找 感 觉 。 比 如 我 们 要 训练 
一 个 聊天 机 器 人 的 话 ， 可 能 会 得 到 这 样 一 个 语料库 ， 或 者 我 们 称 之 为 话 术 库 : 


P: 你 好 。 
乙 : 你 好 。 
甲 : 今天 天 气 不 错 啊 。 
L: 是 的 ,万 里 无 云 。 
甲 
г, 









: 你 打算 去 哪里 玩 ? 
: 我 家 里 还 有 一 些 事情 ， 不 想 出 去 。 


在 训练 的 过 程 中 是 会 把 这 些 语句 一 对 一 对 都 扔 进去 做 训练 的 ， 训 练 过 程 看 上 去 就 类 似 
这 种 感觉 ( 见 下 图 ): 





X, 


X, tel 


聪明 的 读者 朋友 一 定 能 猜 出 来 ， 往 后 继续 展开 就 继续 这 样 往 里 放 就 可 以 了 。 在 这 个 训 
练 的 过 程 中 ,文字 是 没 办 法 直接 扔 进去 的 ， 所 以 都 会 通过 一 个 “ Word to Vector” 的 功能 模 
块 把 字 或 词汇 转换 成 为 数字 向 量 。 这 种 功能 模块 有 不 少 开源 的 算法 支持 ， 也 属于 比较 成 熟 
的 技术 。 这 样 ， 当 Wy 和 所 ;这 两 个 矩阵 被 初始 化 之 后 ， 一 定 在 7 一 侧 有 输出 的 ， 那 就 一 定 
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有 残 差 产生 。 设 每 个 样本 产生 的 残 差 是 E,， 在 一 次 完整 的 训练 中 ， 整 个 网 络 的 残 差 就 是 从 
第 一 次 扔 进去 对 话 的 第 一 句 和 第 二 句 的 时 候 产 生 的 El,， 加 上 第 二 句 和 第 三 句 放 进去 的 时 候 
产生 的 E,…… 一 直 加 到 倒数 第 二 句 和 倒数 第 一 句 放 进去 的 时 候 所 产生 的 残 差 E, ,， 也 就 是 
可 以 简写 成 : 


然后 ， 下 面 按照 我 们 学 到 的 套路 就 应 该 照 猫 画 虎 地 求 导 并 更 新 了 ， 不 过 事情 好 像 不 像 
我 们 想 得 这 么 顺利 。 


8.2.3 ”艰难 的 误差 传递 


RNN 的 训练 过 程 跟 以 前 我 们 见 过 的 BP 神经 网 络 其 实 没 有 什么 本 质 的 差别 ， 还 是 一 样 
的 思路 。 

假定 整个 网 络 确实 有 那么 一 个 状态 ， 此 时 使 得 Wy 和 Wy 的 值 能 够 满足 残 差 总 和 最 小 的 
情况 。 那 么 在 我 初始 化 所 :和 Wi 的 时 候 我 仍然 需要 把 这 两 个 矩阵 中 的 各 维度 分 量 值 向 着 减 
小 残 差 的 方向 去 移动 ， 方 向 是 好 确定 的 一 一 我 们 说 过 ， 最 土 的 方法 可 以 向 正方 向 挪动 一 个 
很 小 的 值 ， 然 后 向 负 方 向 挪动 一 个 很 小 的 值 ， 比 较 一 下 哪 一 种 产生 的 残 差 和 更 小 。 而 我 们 
前 面 多 次 见 过 的 用 链 式 法 则 求 导 的 过 程 ， 目 的 是 为 了 确定 挪 多 少量 更 合适 ， 没 错 吧 ? 

在 当前 这 个 网 络 模 型 中 Wy 和 所; 都 是 我 们 最 终 要 学 习 的 内 容 ， 其 实 残 差 总 和 Loss 应 该 
来 自 于 两 个 部 分 : 一 部 分 是 由 于 Wy 和 理想 的 WW 的 状态 的 差距 造成 的 ， 而 另 一 部 分 是 Wy 
和 理想 的 Wy 的 状态 差距 造成 的 。 现 在 就 是 要 求 出 关于 这 两 个 向 量 的 导数 一 一 也 就 是 斜率 的 
表达 式 来 确定 每 次 移动 多 少 。 可 以 求 吗 ? 可 以 的 ， 但 是 会 出 现 一 些 令 人 骨 溃 的 问题 。 

对 于 整个 网 络 的 误差 的 两 部 分 来 源 ， 我 们 这 样 来 写 : 

Loss = aEy + bEg 
其 中 By лн Wy 引起 的 误差 ， Ey 表示 由 Wi 引起 的 误差 .a 和 4b 分 别 表示 由 样本 产生 的 
系数 。 那 我 们 展开 看 一 下 : 
Hr= Wy f (Hj) + Wy X, 
Yr= SOFTMAX ( f (H;)) 
MRRA— HA XM Y, RE X ЖҮ, ЖИХАТ ЧЕН ЗЕ Je fF 2%? 
Hy =W,fO+W,X, 


E, = 5( SOFTMAX(/(H?))-¥,) 
也 就 是 


1 Р 
E, = (ИН »-x) 
其 中 W, itk SOFTMAX 中 的 W, 矩阵 。 
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那么 当 有 一 个 样本 的 时 候 ， 我 们 把 它 产生 的 残 差 写作 E,， 并 根据 这 个 残 差 来 求 出 偏 导 
数 的 表达 式 。 偏 导数 我 们 不 应 该 陌生 了 ， 主 要 是 为 了 求 出 每 次 “ 挪 ” 多 少 才 费 这 个 劲 儿 的 。 
从 上 面 的 表达 式 我 们 可 以 看 出 来 E, 作为 函数 ， 则 待定 系数 W, A W, 都 成 为 了 它 的 自 变量 ， 
那么 就 需要 分 别 对 它们 求 偏 导数 来 得 到 梯度 大 小 。 
Wy 的 部 分 是 这 样 的 : 
дЕ, 
oW, 
OW, f (H7) 
OW, 
y, 009) 
oW, 
Of (H?) €((W,f 0 * W, Х,) 
oH, ow, 
(Н) 
ôH? 
其 实 不 难看 出 来 ， 当 仅 有 1 个 样本 对 输入 的 时 候 ， 这 残 差 在 Wy ERRIA X, 向 
量 有 关系 。 如 果 你 有 兴趣 展开 的 话 ， 如 果 有 2 PRAM, 3 AREL, ERX, 5X, 
局 、 和 万 与 国有 关 ， 这 部 分 的 误差 很 容易 看 到 ， 即 闷 到 闷 。 





=W; 








=W,X, 


可 是 Wy 的 部 分 就 没 那么 舒服 了 。 
OE, 
АЯ 
_ OW; f(A") 
OW, 
- y, 4 Un) of (y) 
oW, 
-W Of (H?) (Wa fü W, X.) 
5 oH? OW,, 
=W, of (Hy) 9W, fO 
ôH? ôW, 
写 到 这 里 ， 细 心 的 朋友 可 能 已 经 看 出 问题 了 ， 问 题 就 在 脱 式 计算 最 后 的 这 个 部 分 的 最 


oW, 
一 个 于 项 目 ЖЕЛ, з 看 就 知道 化 简 完了 应 该 是 个 光秃秃 的 /0， 这 表示 第 一 次 代 


人 一 对 输入 和 输出 值 的 时 候 ， 这 个 部 分 的 值 就 是 初始 化 的 时 候 给 的 那个 H E, AAA 
入 或 者 是 一 个 做 边缘 补 齐 性 的 输入 ， 所 以 写成 1() 问题 也 不 大 。 因 为 这 个 环节 在 整个 网 络 训 
练 中 只 出 现 一 次 ,不 会 对 整体 的 训练 结果 有 明显 的 影响 。 
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然而 如 果 是 第 3 对 输入 的 值 ， 这 个 地 方 会 变 成 什么 ? 
OW, /(Н;) 
oW, 
可 是 别 忘 了 
Н, = Waf (Hi) + Wy X, 


这 仍然 是 一 个 关于 W, 的 函数 ， 所 以 要 继续 求 导 求 出 


听 起 来 倒是 不 难 ， 可 问题 是 在 训练 的 过 程 中 可 能 有 成 千 上 万 个 向 量 对 会 放 进 去 ， 如 果 有 
1000 个 ， 那 就 需要 求 这 一 系列 的 导数 并 连 乘 起 来 
Bo ӘН ao ӘН, — OH, 
ôW, ^ OW, ` OW, ôW, ` OW, 
才能 确定 为 了 减 小 第 1000 个 向 量 所 造成 的 误差 的 导数 大 小 。 这 简直 就 是 灾难 ， 因 为 这 种 一 长 
串 的 连 乘 形式 组 织 在 一 起 除了 加 大 了 运算 的 时 间 复 杂 度 ， 还 会 引发 梯度 消失 或 梯度 爆炸 问题 。 
因此 ， 传 统 的 RNN 虽然 在 理论 上 说 得 通 ， 但 是 在 训练 中 的 效果 是 非常 不 理想 的 。 在 对 
RNN 的 改造 中 后 人 发 现 了 一 种 叫做 LSTM 的 算法 代替 BPTT 算法 来 实现 RNN 的 训练 方式 。 











8.3 LSTM 算法 


LSTM 算法 的 全 称 是 长 短期 记忆 网 络 (long short-term memory), tti LSTM 算法 对 标准 的 
RNN 进行 的 改进 ， 会 得 到 LSTM 网 络 一 一 这 当然 也 是 RNN 的 一 种 了 ， 不 过 由 于 它 规避 了 标 
ER RNN 中 的 梯度 爆炸 和 梯度 消失 的 问题 ， 所 以 会 显得 更 好 用 一 些 ， 学 习 速 度 更 快 。 

现在 在 工业 上 ， 如 果 考 虑 使 用 RNN 作为 模型 来 训练 的 时 候 通常 也 是 直接 使 用 LSTM 网 
络 ， 这 一 点 大 家 可 以 省 点 心 了 。LSTM 网 络 与 传统 的 RNN 网 络 相 比 多 了 一 个 非常 有 用 的 机 
制 ， 就 是 忘记 门 (forget gate) 9 。 这 个 事例 说 明 几 乎 是 现在 所 有 的 LSTM 算法 介绍 的 资料 中 
都 喜欢 引用 的 一 个 最 经 典 的 例子 了 。 

先 看 一 个 最 基本 的 LSTM 单元 连接 起 来 的 样子 ， 如 下 图 : 





对 于 一 个 输入 的 序列 万 来 说 ， 某 一 个 邢 值 可 能 会 影响 一 个 在 时 间 上 或 者 空间 上 比较 远 
的 方 的 输出 ， 训 练 过 程 就 是 要 学 习 到 影响 的 量化 关系 。 上 图 这 种 说 的 是 有 一 层 LSTM 单元 


Ө 说 明 内 容 来 源 于 http://colah.github.io/posts/2015-08-Understanding-LSTMs/， 有 删改 。 
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连接 起 来 的 样子 ， 拓 扑 结构 就 这 样 。 








在 工业 上 使 用 的 时 候 ，LSTM 是 可 以 像 上 面 这 样 成 为 一 个 很 大 的 方 阵 的 ， 其 中 除了 输 
入 层 和 输出 层 分 别 对 应 着 大 和 思 的 值 以 外 ， 中 间 的 部 分 都 是 一 个 一 个 的 LSTM 单元 。 我 们 
来 解剖 一 下 这 个 单元 ， 看 看 有 什么 特别 的 地 方 。 





Сй 0 — > < 
神经 网 络 层 逐 点 操作 向 量 传 输 连接 合并 拷贝 
LSTM 的 单元 看 上 去 就 是 这 样 一 种 效果 ， 一 个 一 个 首尾 相 接 ， 同 一 层 的 会 把 前 面 单元 
的 输出 作为 后 面 单元 的 输入 ; 前 一 层 的 输出 会 作为 后 一 层 的 输入 。 这 似乎 没有 什么 太 多 好 
说 的 ， 那 我 们 来 看 看 具体 一 个 单元 中 都 有 什么 东西 。 
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首先 从 左 到 右 会 有 这 样 的 一 个 向 量 进行 传输 ， 从 单元 的 左 侧 进入 我 们 称 作 C,,， 从 右 侧 
输出 称 作 C。 这 上 面 只 有 两 个 交互 的 部 分 ， 一 个 是 左 侧 的 “ 乘 号 "， 一 个 是 右 侧 的 “加 号 ”。 
先 说 加 号 部 分 ， 这 就 是 普通 的 向 量 线 性 释 加 ， 也 没什么 稀奇 的 。 左 边 这 个 乘 号 是 一 个 乘法 
器 ， 这 个 操作 相当 于 左 侧 的 С, 进入 单元 后 ， 先 要 被 一 个 乘法 器 乘 以 一 个 系数 后 ， 再 线性 
登 加 一 个 数值 然后 从 右 侧 输出 去 。 | 





刚刚 提 到 的 乘法 器 乘 的 这 个 系数 是 这 样 一 个 来 源 。 可 以 看 到 左 侧 的 Л, 和 下 面 输入 的 
x 经 过 了 连接 操作 ， 再 通过 一 个 线性 单元 ， 和 一 个 o 也 就 是 Sigmoid 函数 之 后 生成 了 一 个 0 
到 1 之 间 的 数字 作为 系数 输出 。 表 达 式 是 这 样 : 
f= co(W, 4h, x] b, ) 
这 个 部 分 就 是 一 个 “忘记 门 ” 了 ， 所谓“ 忘记 ”就 是 指 这 个 相 乘 的 过 程 ， 如 果 Sigmoid 


函数 输出 为 1， 那 就 是 完全 记 住 ， 如 果 输 出 是 0 那 就 是 完全 忘记 ， 中 间 的 值 那 就 是 一 个 记忆 
的 比例 或 者 说 忘记 的 比例 问题 了 。 这 个 画 和 by 作为 待定 系数 是 要 进行 训练 学 习 的 。 





这 里 有 两 个 小 的 神经 网 络 层 ， 一 个 是 我 们 熟悉 的 a 标 识 的 部 分 ， KERN: 
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i, = o(W,h,,,x,]+5,) 
旁边 的 这 个 tanh 标识 也 是 一 个 神经 网 络 层 ， 表 达 式 为 : 
C, = tanh(W, 4A, ,.x,]- 5.) 


这 个 tanh 函数 在 前 面 只 提 到 过 一 次 ， 它 可 以 把 一 个 值 映 射 到 -1 和 1 之 间 ， 这 里 的 We 
和 be 也 是 要 通过 训练 得 到 的 。 





在 这 之 后 ， 由 前 一 次 传递 过 来 的 C-, 向 量 会 和 C, ETA EI. 
C, = / Сз +i, “б, 
到 这 里 其 实 决定 了 本 次 输出 的 С, 究竟 有 多 少 采 纳 本 次 输入 的 信息 ， 有 多 少 采纳 上 一 次 
遗留 下 来 的 信息 。 如 果 是 在 语言 模型 中 ,那么 就 是 关于 前 一 个 主语 到 当前 是 否 应 该 被 遗忘 ， 
而 新 的 主语 是 否 应 该 代替 原先 的 主语 出 现 。 





最 后 的 输出 有 两 个 部 分 ， 从 图 上 就 可 以 看 出 来 是 该 单元 生成 的 如， 一 个 输出 到 同 层 下 

一 个 单元 ， 一 个 输出 到 下 一 层 的 单元 上 。 表 达 式 为 : 
0,=0(W,"[h ,x,]+b,) 
А, =o, * tanh(C,) 

这 里 其 实 可 以 看 出 来 这 个 要 输出 的 C, 向 量 又 经 过 一 个 О, 忘记 门 (forget gate) 的 乘积 效 
果 来 做 输出 成 为 为。 在 语言 模型 中 ， 这 种 影响 是 可 以 影响 前 后 词 之 间 词 形 的 相关 性 的 ， 例 
如 前 面 输入 的 是 一 个 代词 或 者 名 词 ， 后 面 跟随 的 动词 会 学 到 是 否 使 用 “三 单 形式 ”或 根据 
前 面 输入 的 名 词 数 量 来 决定 输出 的 代词 是 单数 形式 还 是 复数 形式 。 
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在 NLP 领域 LSTM 应 用 还 是 比较 成 熟 的 ， 而 且 应 用 也 比较 广泛 ， 这 样 的 例子 是 很 多 
的 。 这 里 虽然 出 现 了 很 多 的 公式 ， 但 是 不 用 紧张 ， 这 些 公式 是 绝对 不 要 求 进行 强 记 的 ， 无 
论 是 就 业 面试 还 是 在 实际 工作 中 , 我们 在 这 里 只 是 了 解 一 下 它 内 部 工作 的 大 致 原理 。 我 
们 只 要 清楚 ， 一 段 输入 的 内 容 如 果 上 下 文 有 着 潜在 的 影响 关系 ， 那 么 用 LSTM 可 以 帮 有 我 
们 把 这 些 关系 学 出 来 的 。 最 终 在 实际 工程 中 我 们 还 是 会 用 TensorFlow 这 种 封装 好 的 库 来 
实现 。 


84 ”应 用 场景 


在 我 们 了 解 到 了 循环 神经 网 络 的 原理 和 作用 后 ， 这 一 节 就 来 看 看 它 的 应 用 场景 。 

说 到 RNN 网 络 一 一 这 里 说 的 RNN 网 络 泛 指 以 循环 神经 网 络 的 方式 来 实现 的 网 络 ， 包 
括 传统 КММ 或 LSTM 等 ， 其 结构 比 原先 的 BP 网 络 和 CNN 网 络 都 要 复杂 ， 尤 其 是 它 允 许 
输入 和 输出 都 是 多 个 值 或 者 说 多 个 向 量 ， 所 以 它 的 功能 更 为 丰富 。 


多 到 一 多 到 多 





它 可 以 做 分 类 工具 ， 可 以 做 有 限 状态 机 (控制 程序 )， 可 以 做 翻译 器 ， 可 以 做 聊天 机 器 
人 等 看 上 去 很 酷 炫 的 事情 。 

这 里 有 一 个 RNN 可 以 做 的 事情 的 “可 视 化 ”归纳 ， 大 致 分 就 是 “一 到 一 ”"、“ 一 到 多 ”、 
“多 到 一 ”"、“ 多 到 多 ”的 映射 种 类 。 

口 “ 一 到 一 ”就 不 用 说 了 ， 普 通 的 函数 能 做 的 事情 ，RNN 肯定 是 能 够 做 到 的 。 

口 “ 一 到 多 ”是 一 种 单一 向 量 输入 ， 多 向 量 输出 的 场景 。 具 体 说 起 来 ， 例 如 描述 一 张 图 

上 的 信息 ， 微 软 的 识 图 机 器 人 CaptionBot 就 是 比较 典型 的 这 种 应 用 ，https://www. 
captionbot.ai/。 

GRE GICAL i + 艾 金 森 (Rowan Atkinson) 这 样 的 公众 人 物 还 是 能 够 指名 道 姓 地 认 出 
来 的 ， 其 他 的 大 众 脸 人 物 基本 不 大 可 能 。 它 能 够 描述 场景 中 有 什么 人 物 或 者 物体 ， 并 描述 
他 们 之 间 的 关系 ， 这 一 点 是 RNN 所 拥有 的 一 个 优势 。 当 然 了 ， 对 于 自己 不 熟悉 的 场景 它 就 
无 能 为 力 了 ， 例 如 最 后 一 张 图 认 成 了 一 个 小 男孩 站 在 草丛 里 ， 这 主要 是 由 于 美国 人 没 见 过 
采 茶 姑娘 ， 也 没 拿 这 种 图 片 正经 训练 过 机 器 的 原因 …… 
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Thank you for your feedback } 


x 





Thank you for your feedback 了 





Thank you for your feedback :) 


ww ai bbc. com ПЦППППППП 


第 8 章 循环 神经 网 络 de 173 


在 Github 上 也 有 一 些 开源 的 项 目 用 的 就 是 CNN+RNN 的 模型 。 其 中 CNN 用 来 提取 特 
ÎE, RNN 用 这 些 特征 的 Feature 向 量 和 描述 向 量 来 做 训练 ， 例 如 https://github.com/karpathy/ 
neuraltalk2 等 。 如 下 图 所 示 ， 这 种 模型 是 可 以 标注 下 面 的 这 些 图 片 中 有 什么 物体 (人物)， 
以 及 他 们 的 状态 或 者 动作 。 








train m traveling down tho tracks st a 
station 


" a bench sting on a patch of grass nari to 
a man is playing tenni on a iannis court ВІЗ a sidewalk 


a cabe wih a sico cut out at t 


“多 到 一 ”可 以 用 于 识别 视频 主题 分 类 。 例 如 ， 项目“ C3D: Generic Features for Video 
Analysis” 就 可 以 实现 主题 的 识别 ， 地 址 : http://vlg.cs.dartmouth.edu/c3d/. 3X 439i H H fif 
可 以 比较 好 地 对 播放 的 体育 竞技 内 容 进行 分 类 识别 。 





器 人 ， 可 以 在 客服 、 问 讯 系 统 等 场景 下 应 用 ,减少 人 工 投入 。 例 如 ， 自 动 翻译 机 器 人 ， 在 
谷歌 和 百度 这 样 的 巨型 互联 网 公司 也 已 经 有 了 很 好 的 应 用 ， 尤 其 是 在 有 些 场景 中 ， 翻 译 的 
细 妥 程 度 已 经 快 可 以 和 较 好 的 人 工 翻译 难 分 伯仲 了 。 








[E] паз ewm emere - 





| have never saw а saw saw a saw. 


+ т. 
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[яа] ose ems amentsa- ^ вен xs Гаван. NIN 


She who is a very famous Miolinist had decided to visit “| 她 是 一 位 非常 着 名 的 小 提琴 家 ， 决 定 访 问 申 国 ， 在 北京 和 
China to hold a serial of concerts which will take place in | 上 海 举行 一 系列 的 音乐 会 。 


Beijing and Shanghai. 
тое < 7 Ma eR 















9 $m- 137/5000 


除了 措辞 有 失 文采 和 感人 的 情绪 ， 通 顺 程 度 已 经 完全 可 以 达到 正常 阅读 的 标准 了 ， 这 
不 能 不 说 给 需要 跨 语言 阅读 的 人 们 带 来 了 极 大 的 便利 。 另 外 还 有 一 些 描述 视频 段 信息 的 
RNN 项 目 ， 例 如 https://github.com/samim23/NeuralTalkAnimator。 





a group of people standing on top of a lush green field 





这 也 同样 属于 “多 到 多 ”的 应 用 场景 。 在 这 样 一 个 Demo 视频 中 ， 网 络 能 够 正确 识别 
出 图 中 有 一 群 人 站 在 绿色 的 草坪 上 。 

这 些 项 目 不 管 商用 程度 如 何 ， 至 少 看 上 去 都 很 “有 趣 ” 对 不 对 ? 如 果 感 觉 有 趣 ， 那 就 
下 载 来 玩 玩 看 ， 反 正 又 不 要 钱 。 做 工程 做 项 目的 人 经 验 是 很 重要 的 ， 多 接触 一 些 开 源 项 目 
肯定 没有 坏处 。 


85 ”实践 案例 一 一 自动 文本 生成 


看 别人 说 得 再 热闹 也 没有 咱 自己 动手 实现 来 得 好 ， 这 次 我 们 来 看 一 个 自动 文本 生成 
的 小 工程 ， 同 样 是 TensorFlow 官方 提供 的 最 为 经 典 的 RNN 入 门 案例 ， 我 们 先 感受 一 下 。 
GitHub 文件 位 置 在 https://github.com/tensorflow/models， 文 件 所 在 目录 : models/tutorials/ 
rnn/ptb。 本 书 中 讲解 两 个 文件 ptb_world_ lm.py 和 геайег.ру. 


8.5.1 RNN 工程 代码 解读 


1. ptb world Im.py 
以 下 是 ptb. world Im.py 中 的 实现 代码 : 


ww ai bbt.com ПЦПППППП 


$585 ”循环 神经 网 络 e 175 


1 # Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


64 import reader 


66 flags = tf.flags 
67 logging = tf.logging 


69 flags.DEFINE string ( 

70 "model", "small", 

71 "A type of model. Possible options are: small, medium, large.") 
72 flags.DEFINE_string("data_path", None, 

73 "Where the training/test data is stored.") 

74 flags.DEFINE string("save path", None, 

75 "Model output directory.") 

76 flags.DEFINE bool("use #р16", False, 

77 "Train using 16-bit floats instead of 32bit floats") 


79 FLAGS - flags.FLAGS 


82 def data type(): 
83 return tf.floatl6 if FLAGS.use #р16 else tf.float32 


86 class PTBInput (object): 
87 """The input data.""" 


89 def — init (self, config, data, name-None): 

90 self.batch size - batch size - config.batch size 

91 self.num steps - num steps - config.num steps 

92 self.epoch size - ((len(data) // batch size) - 1) // num steps 
93 self.input data, self.targets - reader.ptb producer( 

94 data, batch size, num steps, name-name) 


97 class PTBModel (object): 
98 """The PTB model.""" 


100 def _ init (self, is training, config, input ): 
101 self. input - input 


103 batch size - input .batch size 

104 num steps - input .num steps 

105 size - config.hidden size 

106 vocab size - config.vocab size 

107 

108 # Slightly better results can be obtained with forget gate biases 

109 # initialized to 1 but the hyperparameters of the model would need to be 
110 # different than reported in the paper. 

111 def lstm cell(): 
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return tf.contrib.rnn.BasicLSTMCell( 
size, forget bias-0.0, state is tuple-True) 


attn cell = lstm cell 

if is training and config.keep prob « 1: 

def attn cell(): 

return tf.contrib.rnn.DropoutWrapper ( 

lstm cell(), output keep prob-config.keep prob) 

cell - tf.contrib.rnn.MultiRNNCell( 

[attn cell() for _ in range(config.num layers)], State is tuple-True) 


self. initial state - cell.zero state(batch size, data type()) 


with tf.device("/cpu:0"): 

embedding - tf.get variable( 

"embedding", [vocab size, size], dtype=data_type()) 

inputs = tf.nn.embedding lookup (embedding, input .input data) 


if is training and config.keep prob « 1: 
inputs = tf.nn.dropout (inputs, config.keep prob) 


outputs = [] 

state - self. initial state 

with tf.variable scope ("RNN"): 

for time step in range (num steps): 

if time step > 0: tf.get variable scope().reuse variables() 
(cell output, state) - cell(inputs[:, time step, :], state) 
outputs.append(cell output) 


output = tf.reshape(tf.concat(outputs, 1), [-1, size]) 
softmax_w = tf.get variable( 

"softmax w", [size, vocab size], dtype-data type()) 
softmax b - tf.get variable("softmax b", [vocab size], dtype-data type()) 
logits - tf.matmul(output, softmax w) + softmax b 

loss - tf.contrib.legacy seq2seq.sequence loss by example( 
[1ogits], 

[tf.reshape(input .targets, [-1])], 

[tf.ones([batch size * num steps], dtype-data type())]) 
self. cost - cost - tf.reduce sum(loss) / batch size 

self. final state - state 


if not is training: 
return 


self. lr - tf.Variable(0.0, trainable-False) 

tvars = tf.trainable variables() 

grads, _ = tf.clip by global norm(tf.gradients(cost, tvars), 
config.max grad norm) 

optimizer - tf.train.GradientDescentOptimizer(self. lr) 
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self. train op = optimizer.apply gradients( 
zip(grads, tvars), 
global step-tf.contrib.framework.get or create global step()) 


self. new lr = tf.placeholder( 


.tf.float32, shape=[], names"new learning rate") 


self. lr update - tf.assign(self. lr, self. new lr) 


def assign lr(self, session, lr value): 
session.run(self. lr update, feed dict-(self. new lr: lr value]) 


class SmallConfig (object): 
"""Small config.""" 
init scale = 0.1 
learning rate - 1.0 
max grad norm - 5 
num layers - 2 

num steps - 20 
hidden size - 200 
max epoch = 4 

max max epoch - 13 
keep prob = 1.0 

lr decay = 0.5 
batch size - 20 
vocab size - 10000 


class MediumConfig (object) : 
"""Medium config.""" 
init scale = 0.05 
learning rate - 1.0 
max grad norm - 5 
num layers - 2 

num steps - 35 
hidden size - 650 
max epoch - 6 

max max epoch - 39 
keep prob - 0.5 

lr decay = 0.8 
batch size - 20 
vocab size - 10000 


class LargeConfig (object): 
"""Large config.""" 

init scale - 0.04 
learning rate = 1.0 

max grad norm - 10 
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243 num_layers = 2 

244 num_steps = 35 

245 hidden size = 1500 
246 тах_еросһ = 14 

247 max_max_epoch = 55 
248 keep prob = 0.35 
249 lr decay = 1 / 1.15 
250 batch size - 20 

251 vocab size - 10000 


254 class TestConfig (object): 
255 """Tiny config, for testing.""" 
256 init scale - 0.1 

257 learning rate - 1.0 

258 max grad norm - 1 

259 num layers - 1 

260 num steps - 2 

261 hidden size - 2 

262 max epoch - 1 

263 max max epoch - 1 

264 keep prob - 1.0 

265 lr decay - 0.5 

266 batch size - 20 

267 vocab size - 10000 


270 def run epoch(session, model, eval op-None, verbose-False): 
271 """Runs the model on the given data.""" 
272 start time - time.time() 

273 costs - 0.0 

274 iters = 0 

275 state - session.run(model.initial state) 


277 fetches - ( 

278 "cost": model.cost, 

279 "final state": model.final state, 
280 } 

281 if eval op is not None: 

282 fetches["eval op"] - eval op 


284 for step in range (model.input.epoch size): 

285 feed dict - () 

286 for i, (c, h) in enumerate(model.initial state): 
287 feed dict[c] state[i].c 

288 feed dict[h] state[i].h 


290 vals - session.run(fetches, feed dict) 
291 cost vals ["cost"] 
292 state - vals["final state"] 
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costs += cost 
iters += model.input.num_steps 


if verbose and step % (model.input.epoch size // 10) == 10: 
print ("%.3£ perplexity: %.3f speed: %.0f wps" $ 

(step * 1.0 / model.input.epoch_size, np.exp(costs / iters), 
iters * model.input.batch size / (time.time() - start time))) 


return np.exp(costs / iters) 


def get_config(): 

if FLAGS.model == "small": 
return SmallConfig () 

elif FLAGS.model == "medium": 
return MediumConfig () 

elif FLAGS.model == "large": 
return LargeContfig () 

elif FLAGS.model == "test": 
return TestConfig () 


else: 

raise ValueError("Invalid model: %s", FLAGS.model) 

def main( ): 

if not FLAGS.data path: 

raise ValueError("Must set --data path to PTB data directory") 
raw data - reader.ptb raw data(FLAGS.data path) 

train data, valid data, test data, _ = raw data 

config = get config () 


eval config = get config () 
eval config.batch size = 1 
eval config.num steps - 1 


with tf.Graph().as default(): 
initializer - tf.random uniform initializer(-config.init scale, 
config.init scale) 


with tf.name scope ("Train"): 

train input = PTBInput (config=config, data-train data, name="TrainInput") 
with tf.variable scope("Model", reuse-None, initializer-initializer): 
m = PTBModel(is training-True, config-config, input -train input) 
tf.scalar summary("Training Loss", m.cost) 

tf.scalar summary("Learning Rate", m.lr) 


with tf.name scope ("Valid"): 
valid input = PTBInput (config-config, data-valid data, name-"ValidInput") 
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343 with tf.variable scope("Model", reuse-True, initializer-initializer): 
344 mvalid = PTBModel(is training-False, config=config, input -valid input) 
345 tf£.scalar_summary ("Validation Loss", mvalid.cost) 

346 

347 with tf.name scope("Test"): 

348 test input = PTBInput(config-eval config, data-test data, name="TestInput") 
349 with tf.variable scope("Model", reuse-True, initializer-initializer): 
350 mtest = PTBModel(is training-False, config-eval config, 

351 input -test input) 

352 

353 sv - tf.train.Supervisor(logdir-FLAGS.save path) 

354 with sv.managed session() as session: 

355 for i in range(contig.max max epoch): 

356 lr decay = config.lr decay ** max(i + 1 - config.max epoch, 0.0) 

357 m.assign lr(session, config.learning rate * lr decay) 

358 

359 print("Epoch: $d Learning rate: $.3f" $ (i + 1, session.run(m.1lr))) 
360 train perplexity - run epoch(session, m, eval op-m.train op, 

361 verbose-True) 

362 print("Epoch: td Train Perplexity: $.3f" % (i + 1, train perplexity)) 
363 valid perplexity - run epoch(session, mvalid) 

364 print("Epoch: $d Valid Perplexity: %.3£" % (i + 1, valid perplexity)) 
365 

366 test perplexity - run epoch(session, mtest) 

367 print("Test Perplexity: $.3f" $ test perplexity) 

368 

369 if FLAGS.save path: 

370 print ("Saving model to %s." % FLAGS.save path) 

371 sv.saver.save(session, FLAGS.save path, global step-sv.global step) 
372 

373 

374 if name == " main ": 

375 tf.app.run() 


375 fT, № TensorFlow. 

318 ~ 371 47, JAZ) TensorFlow 后 首先 调用 main 函数 。 

322 一 323 行 ， 准 备 训 练 、 验 证 和 测试 数据 集 。 

324 ~ 327 行 ， 获 取 训 练 参数 和 验证 相关 参数 。 

205 一 266 行 ,4 组 不 同 的 训练 参数 设置 。 

335 行 ， 保 存 训练 、 验 证 和 测试 的 参数 和 数据 到 PTBInput 类 里 ， 返 回 数据 和 对 应 的 
标签 。 

336 ~ 337 行 ， 创 建 训练 网 络 。 

111 一 113 行 ， 创 建 lstm 单元 。 

115 — 11947, 4 lstm 单元 添加 dropout, 

120 ~ 121 行 ， 创 建 多 层 lstm。 

125 一 128 行 ， 每 个 单词 使 用 一 个 唯一 向 量 表 示 ，word_embedding。 
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130 一 131 行 ， 给 输出 层 添加 dropout. 
144 — 148 行 ， 开 始 训练 循环 。 
150 ~ 154 行 ， 过 一 层 全 连接 。 


155: 
165 ~ 
度 值 。 


15947, it# loss. 
176 行 ， 使 用 梯度 下 降 优 化 算法 计算 梯度 ， 更 新 降低 learing rate， 截 取 一 下 梯 


353 ~ 371 行 ， 开 始 训练 

356 — 357 行 ， 降 低 更 新 learning rate. 

359 ~ 364 行 ,分 别 使 用 训练 数据 和 验证 数据 运行 一 个 epoch。 
366 ~ 367 行 ， 使 用 测试 数据 运行 一 个 epoch。 

369 一 371 行 ， 保 存 模型 。 


2. reader.py 文件 
还 有 一 个 reader.py 文件 ， 以 下 是 它 的 实现 代码 : 


1 # Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


import tensorflow as tf 


def _read words (filename) : 
with tf.gfile.GFile(filename, "r") as f: 
return f.read().decode("utf-8").replace("Mn", "«eos»").split() 


def .build vocab (filename): 
data = read words (filename) 


counter = collections.Counter (data) 


count pairs = sorted(counter.items(), key-lambda x: (-х[1], x[01)) 
words, _ = list(zip(*count pairs)) 
word to id = dict(zip(words, range (len (words) ))) 


return word to id 


def file to word ids(filename, word to id): 
data = read words (filename) 
return [word_to_id[word] for word in data if word in word_to_id] 


def ptb_raw_data(data_path=None) : 
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69 train_path = os.path.join(data_path, "ptb.train.txt") 
70 valid path = os.path.join(data path, "ptb.valid.txt") 
71 test path - os.path.join(data path, "ptb.test.txt") 


73 word to id = build vocab(train path) 

74 train data = file to word ids(train path, word to id) 
75 valid data - file to word ids(valid path, word to id) 
76 test data - file to word ids(test path, word to id) 
77 vocabulary - len(word to id) 

78 return train data, valid data, test data, vocabulary 


81 def ptb producer(raw data, batch size, num steps, пате=Мопе) : 

97 Raises: 

98 tf.errors.InvalidArgumentError: if batch size or num steps are too high. 
99 "тт 

100 with tf.name scope(name, "PTBProducer", [raw data, batch size, num steps]): 
101 raw data - tf.convert to tensor(raw data, name-"raw data", dtype-tf.int32) 
102 

103 data len - tf.size(raw data) 

104 batch len - data len // batch size 

105 data - tf.reshape(raw data[0: batch size * batch len], 

106 [batch size, batch lenl) 

107 

108 epoch size - (batch len - 1) // num steps 

109 assertion - tf.assert positive( 

110 epoch size, 

111 message-"epoch size -- 0, decrease batch size or num steps") 

112 with tf.control dependencies ( [assertion] ) : 

113 epoch size - tf.identity(epoch size, name-"epoch size") 

114 

115 i = tf.train.range input producer(epoch size, shuffle-False) .dequeue() 
116 x - tf.strided slice(data, [0, i * num steps], 

117 [batch size, (i + 1) * num steps]) 

118 x.set shape([batch size, num steps]) 

119 y = tf.strided slice(data, [0, i * num steps + 1], 

120 [batch size, (i + 1) * num steps + 1]) 

121 y.set shape([batch size, num steps]) 

122 return x, y 


28 一 30 行 ， 读 文件 里 的 数据 ， 把 "\n" 换行 符 换 成 "<eos>"， 返 回 所 有 出 现 的 单词 
列表 。 

33 一 42 行 ， 给 每 个 单词 对 应 一 个 唯一 id。 

45 一 47 行 ， 把 文件 里 的 单词 变 成 对 应 的 id。 

50 一 78 行 ,返回 训练 、 验 证 、 测 试 数据 集 (单词 变 成 对 应 id 之 后 的 结果 ) 和 文件 里 出 
现 的 词汇 总 数 。 
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81 一 122 行 ， 把 数据 和 其 对 应 的 标签 分 成 若干 个 batch 返回 。 
运行 方式 : 
python ptb word lm.py --data path data 


这 几乎 是 一 个 最 简单 的 RNN 应 用 了 ， 就 是 一 个 自动 化 的 文本 生成 器 ， 也 是 在 深度 学 习 
中 最 为 经 典 的 学 习 案 例 之 一 。 当 然 ， 训 练 的 时 候 把 文本 丢 给 它 让 它 先 去 “学 习 "， 然 后 它 就 
会 以 训练 样本 的 “风格 ”或 “口吻 ”输出 一 段 文字 。 


8.5.2 利用 RNN 学 习 莎 士 比 亚 剧本 
我 们 给 一 段 莎士比亚 戏剧 的 剧本 让 RNN 去 学 习 9: 


PANDARUS: 

Alas, I think he shall be come approached and the day 
When little srain would be attain'd into being never fed, 
And who is but a chain and subjects of his death, 

I should not sleep. 


Second Senator: 

They are away this miseries, produced upon my soul, 
Breaking and strongly should be buried, when I perish 
The earth and thoughts of many states. 


DUKE VINCENTIO: 
Well, your wit is in the care of side and that. 


Second Lord: 

They would be ruled after this chamber, and 

my fair nues begun out of the fact, to be conveyed, 
Whose noble souls I'll have the heart of the wars. 


Clown: 
Come, sir, I will make did behold your worship. 


VIOLA: 
I'll drink it. 


rnm 


它 会 帮 你 生成 这 样 的 会 话 出 来 : 


VIOLA: 

Why, Salisbury must find his flesh and thought 

That which I am not aps, not a man and in fire, 

To show the reining of the raven and the wars 

To grace my hand reproach within, and not a fair are hand, 


Ө ЗІЯ http://karpathy. github.io/2015/05/21/mn-effectiveness/, 
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That Caesar апа my goodly father's world; 

When I was heaven of presence and our fleets, 

We spare with hours, but cut thy council I am great, 
Murdered and by thy master's ready there 

My power to give thee but so much as hell: 

Some service in the noble bondman here, 

Would show him to her wine. 


KING LEAR: 

О, if you were a feeble sight, the courtesy of your law, 
Your sight and several breath, will wear the gods 

With his heads, and my hands are wonder'd at the deeds, 
So drop upon your lordship's head, and your opinion 
Shall be against your honour. 


8.5.3 利用 RNN 学 习 维 基 百 科 


此 外 ，RNN 同样 可 以 用 于 生成 一 段 维基 百科 格式 的 文本 内 容 ， 当 然 前 提 是 你 要 用 维基 
百科 的 内 容 来 训练 它 。 例 如 ， 生 成 一 段 这 样 的 维基 百科 内 容 : 


Naturalism and decision for the majority of Arab countries' capitalide was 
grounded 

by the Irish language by [[John Clair]], [[An Imperial Japanese Revolt]], 
associated 

with Guangzham's sovereignty. His generals were the powerful ruler of the 
Portugal 

in the [[Protestant Immineners]], which could be said to be directly in Cantonese 

Communication, which followed a ceremony and set inspired prison, training. The 

emperor travelled back to [[Antioch, Perth, October 25|21]] to note, the Kingdom 

of Costa Rica, unsuccessful fashioned the [[Thrales]], [[Cynth's Dajoard]], known 

in western [[Scotland]], near Italy to the conquest of India with the conflict. 

Copyright was the succession of independence in the slop of Syrian influence that 

was a famous German movement based on a more popular servicious, non-doctrinal 

and sexual power post. Many governments recognize the military housing of the 

[[Civil Liberalization and Infantry Resolution 265 National Party in Hungary]], 

that is sympathetic to be to the [[Punjab Resolution]] 

(PJS) [http: //www.humah.yahoo.com/guardian. 

cfm/7754800786d17551963s89.htm Official economics Adjoint for the Nazism, 
Montgomery 

was swear to advance to the resources for those Socialism's rule, 

was starting to signing a major tripad of aid exile.]] 


其 至 是 生成 一 段 代码 : 


<page> 
<title>Antichrist</title> 
<id>865</id> 
<revision> 
<id>15900676</id> 
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<timestamp>2002-08-03T18:14:12Z</timestamp> 
<contributor> 
<username>Paris</username> 
<id>23</id> 
</contributor> 
<minor /> 
«comment»Automated conversion</comment> 
«text xml:space="preserve">#REDIRECT [ [Christianity] ]</text> 
</revision> 
</page> 


这 个 事例 也 被 很 多 博客 、 参 考 书 大量 引 用 ， 足 见 其 有 着 怎样 的 代表 性 和 典型 性 。 

不 过 看 到 这 里 估计 不 少 程序 员 朋 友 会 峭 梁 沟 一 凉 一 一 这 机 器 人 要 是 真 的 都 学 写 代 码 了 ， 
我 们 是 不 是 都 要 失业 了 ? 从 理论 上 来 说 ， 如 果真 的 给 机 器 人 足够 多 的 需求 描述 和 程序 代码 ， 
机 器 人 恺 怕 真 的 能 够 写 出 高 质量 的 代码 来 ， 而 且 速 度 极 快 (一 秒 钟 几 十 MB E B MB 的 输 
出 )。 但 是 我 从 来 不 紧张 这 样 的 事情 ， 这 种 机 器 代替 人 的 事情 在 人 类 发 展 史 上 一 直 都 是 让 人 
又 爱 又 恨 的 ， 不 是 吗 ? 每 次 代替 都 会 让 人 从 繁重 、 重 复 、 低 水 平 的 劳动 中 逐步 解放 出 来 ， 
从 而 进一步 让 人 有 更 多 的 时 间 去 从 事 高 档次 的 劳动 和 享受 生活 。 人 类 的 智慧 到 现在 为 止 仍 
然 是 得 天 独 厚 的 一 种 神奇 的 存在 ， 在 相当 长 的 时 间 内 都 不 太 可 能 找到 替代 品 。 人 工 智能 再 
厉害 ， 既 然 是 人 造 出 来 的 ， 那 么 人 类 就 有 足够 的 能 力 去 制约 它 ， 扬 长 避 短 地 使 用 它 ， 让 它 
为 我 们 服务 。 


8.6 ”实践 案例 一 一 聊天 机 器 人 


接 下 来 这 个 RNN 的 案例 看 上 去 就 更 有 趣 一 一 聊天 机 器 人 。 

聊天 机 器 人 应 该 说 是 一 类 机 器 人 的 统称 了 ， 这 种 机 器 的 作用 是 可 以 通过 与 用 户 的 一 问 
一 答 的 对 话 来 完成 一 轮 或 者 多 轮 次 的 对 话 内容 。 基 于 这 样 一 种 形式 ， 在 很 多 领域 它 都 会 有 
用 武之 地 。 例 如 在 一 些 类 似 维基 百科 这 样 的 词 条 解释 性 内 容 服务 商 ， 就 会 考虑 用 这 种 机 器 
人 来 代替 讲解 员 为 用 户 提供 一 问 一 答 的 讲解 方式 。 在 很 多 大 型 公司 的 后 台 是 有 着 巨 量 的 客 
服 工作 内 容 的 ， 在 这 样 一 个 重复 回答 场景 占据 相当 比例 的 场合 下 ， 不 少 公司 都 越 来 越 倾向 
于 使 用 聊天 机 器 人 来 代替 人 工 客服 进行 工作 。 我 们 先 来 看 这 个 工程 : 


0 Conchylicultor / DeepQA [Omaan | s | [se | 5 | [re | 27 | 


| осон | Oem Платен Века фы. ee шс» o o 


My tensorflow implementation of "A neural conversational model", a Deep learning based chatbot 


(p 165 commits p 2 branches 
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它 在 GitHub 上 有 533 个 赞 ， 是 个 比较 靠 谱 的 Sequence-to-Sequence 生成 模型 ， 地 址 在 
https://github.com/Conchylicultor/DeepQA ， 文 件 所 在 目录 为 DeepQA。 在 本 书 中 讲解 其 中 的 
三 个 文件 内 容 ，chatbot.py、model.py、textdata.py。 

我 们 先 来 看 chatbot.py 文件 : 


1 # Copyright 2015 Conchylicultor. All Rights Reserved. 
34 from chatbot .model import Model 
35 
36 
37 class Chatbot: 
38 non 
39 Main class which launch the training or testing mode 
40 тит 
41 
42 class TestMode: 
43 """ Simple structure representing the different testing modes 


44 von 
45 ALL = 'all' 
46 INTERACTIVE = 'interactive' # The user can write his own questions 


47 DAEMON = 'daemon' # The chatbot runs on background and can regularly be 
called to predict something 

48 

49 def _ init (self): 

50 нин 

51 noe 

52 # Model/dataset parameters 

53 self.args = None 

54 

55 # Task specific object 

56 self.textData = None # Dataset 

57 self.model = None # Sequence to sequence model 

58 

59 # TensorFlow utilities for convenience saving/logging 

60 self.writer = None 

61 self.saver = None 


62 self.modelDir = '' # Where the model is saved 
63 self.globStep = 0 # Represent the number of iteration for the current model 
64 ` 


65 # TensorFlow main session (we keep track for the daemon) 
66 self.sess = None 

67 

68 # Filename and directories constants 

69 self.MODEL DIR BASE = 'save/model' 

70 self.MODEL NAME BASE - 'model' 

71 self.MODEL EXT - '.ckpt' 

72 self.CONFIG FILENAME - 'params.ini' 

73 self.CONFIG VERSION = '0.4' 

74 self.TEST IN NAME - 'data/test/samples.txt' 
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75 Belf.TEST OUT SUFFIX = ' predictions.txt' 
76 self.SENTENCES PREFIX = ['Q: ', 'A: '] 


77 


def main(self, args=None) : 


self.loadModelParams() # Update the self.modelDir and self.globStep, for now, 
not used when loading Model (but need to be called before _getSummaryName) 


self.textData - TextData(self.args) 


if self.args.createDataset: 
print('Dataset created! Thanks for using this program') 
return # No need to go further 


# Prepare the model 
with tf.device(self.getDevice()): 
self.model - Model(self.args, self.textData) 


# Saver/summaries 
self.writer = tf.summary.FileWriter(self. getSummaryName()) 
self.saver = tf.train.Saver(max to keep-200) 


# Running session 

self.sess = tf.Session(contfig-tf.ConfigProto( 

allow soft placement-True, # Allows backup device for non GPU-available 
operations (when forcing GPU) 

log device placement-False) # Too verbose ? 

) # TODO: Replace all sess by self.sess (not necessary a good idea) ? 


'if self.args.debug: 


self.sess = tf debug.LocalCLIDebugWrapperSession (self.sess) 
Self.sess.add tensor filter("has inf or nan", tf debug.has inf or nan) 


print('Initialize variables...') 
self.sess.run(tf.global variables initializer()) 


# Reload the model eventually (if it exist.), on testing mode, the models 
are not loaded here (but in predictTestset) 

if self.args.test != Chatbot.TestMode.ALL: 

self.managePreviousModel (self.sess) 


# Initialize embeddings with pre-trained word2vec vectors 

if self.args.initEmbeddings: 

print("Loading pre-trained embeddings from GoogleNews-vectors- 
negative300.bin") 
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217 self.loadEmbedding (self.sess) 


219 if self.args.test: 

220 if self.args.test -- Chatbot.TestMode.INTERACTIVE: 

221 self.mainTestInteractive (self.sess) 

222 elif self.args.test -- Chatbot.TestMode.ALL: 

223 print('Start predicting...') 

224 self.predictTestset (self .sess) 

225 print('All predictions done') 

226 elif self.args.test == Chatbot.TestMode.DAEMON: 

227 print ('Daemon mode, running in background...') 

228 else: 

229 raise RuntimeError('Unknown test mode: {}'.format(self.args.test)) # 
Should never happen 

230 else: 

231 self.mainTrain(self.sess) 


233 if self.args.test !- Chatbot.TestMode .DAEMON: 
234 self.sess.close() 
235 print ("The End! Thanks for using this program") 


237 def.mainTrain(self, sess): 


245 self.textData.makeLighter(self.args.ratioDataset) 4 Limit the number of 
training samples 


247 mergedSummaries = tf.summary.merge all() # Define the summary operator 
(Warning: Won't appear on the tensorboard graph) 

248 if self.globStep == 0: # Not restoring from previous run 

249 self.writer.add graph(sess.graph) 4 First time only 


250 

251 # If restoring a model, restore the progression bar ? and current batch ? 
252 

253 print('Start training (press Ctrl+C to save and exit)...') 

254 


255 try: 4 If the user exit while training, we still try to save the model 
256 for e in range(self.args.numEpochs): 


257 

258 print() 

259 print("----- Epoch {}/{} ; (lr={}) ----- ".format(e + 1, self.args. 
numEpochs, self.args.learningRate)) 

260 

261 batches = self.textData.getBatches() 

262 

263 # TODO: Also update learning parameters eventually 

264 


265 tic = datetime.datetime.now() 
266 for nextBatch in tqdm(batches, desc="Training") : 
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# Training pass 

ops, feedDict = self.model.step(nextBatch) 

assert len(ops) == 2 # training, loss 

_, loss, summary = sess.run(ops + (mergedSummaries,), feedDict) 
self.writer.add summary (summary, self .globStep) 

self.globStep += 1 


# Output training status 

if self.globStep % 100 == 0: 

perplexity - math.exp(float(loss)) if loss « 300 else float("inf") 
tgdm.write("----- Step &d -- Loss %.2f -- Perplexity %.2f" $ (self. 
globStep, loss, perplexity)) 


# Checkpoint 
if self.globStep $ self.args.saveEvery == 0: 
self. saveSession(sess) 


toc = datetime.datetime.now() 


print("Epoch finished in ()".format( 

toc - tic)) # Warning: Will overflow if an epoch takes more than 24 hours, 
and the output isn't really nicer 

except (KeyboardInterrupt, SystemExit): # If the user press Ctrl+C while 
testing progress 

print (' Interruption detected, exiting the program...') 


self. saveSession(sess) # Ultimate saving before complete exit 


def mainTestInteractive(self, sess): 

""" Try predicting the sentences that the user will enter in the console 
Args: 

sess: The current running session 

"өҥ : 

# TODO: If verbose mode, also show similar sentences from the training 
set with the same words (include in mainTest also) 

# TODO: Also show the top 10 most likely predictions for each predicted 
output (when verbose mode) 

# TODO: Log the questions asked for latter re-use (merge with test/ 
samples .txt) 


print ('Testing: Launch interactive mode:') 

print('') 

print('Welcome to the interactive mode, here you can ask to Deep Q&A the 
sentence you want. Don\'t have high ' 

‘expectation. Type \'exit\' or just press ENTER to quit the program. Have 
fun.') 
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358 
359 


while True: 

question = input (self.SENTENCES PREFIX[0]) 
if question == '' or question == 'exit': 
break 


questionSeq = [] # Will be contain the question as seen by the encoder 
answer = self.singlePredict (question, questionSeq) 

if not answer: 

print ('Warning: sentence too long, sorry. Maybe try a simpler sentence. ') 
continue # Back to the beginning, try again 


print('{}{}'.format(self.SENTENCES PREFIX[1], self.textData. 
sequence2str (answer, clean=True) )) 


if self.args.verbose: 
print (self .textData.batchSeq2str(questionSeq, clean=True, reverse-True)) 


print (self.textData.sequence2str (answer) ) 


print () 


这 个 文件 的 内 容 确实 有 点 宛 长， 有 657 行 之 多 ， 不 过 其 中 一 些 封装 过 的 与 主要 流程 关 
系 不 大 的 内 容 我 们 已 经 和 前 面 的 内 容 一 样 做 了 省 略 处 理 。 


155 íf, 

165 ff, 

172 47, 
参数 。 

174 行 ， 


程序 入 口 函 数 。 
获取 程序 运行 参数 。 
如 果 有 已 经 保存 的 模型 文件 ， 就 重用 之 前 模型 文件 中 对 当前 模型 训练 有 用 的 


准备 训练 数据 读 文件 ， 一 行 输入 ， 下 一 行为 其 对 应 输出 ， 每 行 再 做 分 词 ， 每 个 


单词 有 唯一 ID ， 每 个 ID 对 应 一 个 唯一 单词 。 
185 一 186 行 ,在 指定 设备 上 运行 初始 化 模型 。 
215 一 217 行 ， 如 果 有 已 经 训练 好 的 word2vec 模型 就 用 。 
219 一 236 行 ， 是 以 测试 模型 方式 运行 还 是 训练 模型 。 


237 行 ， 
245 ff, 
25641, 
2614, 
26647, 
27011, 


进行 模型 训练 。 

暂时 没 用 。 

开始 训练 循环 。 
获取 一 轮训 练 所 有 batch 数据 。 
循环 每 次 取 一 个 batch 数据 。 


feed forward。 


文件 model.py 如 下 : 


1 # Copyright 2015 Conchylicultor. А11 Rights Reserved. 
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return tf.matmul(X, self.W) + self.b 


class Model: 


self.textData = textData # Keep a reference on the dataset 
self.args = args # Keep track of the parameters of the model 
self.dtype - tf.float32 


# Placeholders 

self.encoderInputs - None 

self.decoderInputs = None # Same that decoderTarget plus the «go» 
self.decoderTargets - None 

self.decoderWeights = None # Adjust the learning to the target sentence size 


* Main operators 

self.lossFct - None 

self.optOp - None 

self.outputs = None # Outputs of the network, list of probability for 
each words 


4 Construct the graphs 
self.buildNetwork() 


def buildNetwork (self): 


outputProjection - None 

4 Sampled softmax only makes sense if we sample less than vocabulary size. 
if 0 < self.args.softmaxSamples < self.textData.getVocabularySize(): 
outputProjection = ProjectionOp ( 

(self.args.hiddenSize, Self.textData.getVocabularySize()), 
scope='softmax_projection', 

dtype=self.dtype 

) 


def sampledSoftmax(labels, inputs): 
labels = tf.reshape(labels, [-1, 1]) # Add one dimension (nb of true 
classes, here 1) 


# We need to compute the sampled softmax loss using 32bit floats to 
# avoid numerical instabilities. 

localWt = tf.cast(tf.transpose(outputProjection.W), tf.float32) 
localB = tf.cast(outputProjection.b, tf.float32) 

locallInputs = tf.cast(inputs, tf.float32) 
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131 
132 
133 
134 
135 
136 
137 


138 
139 
140 
141 
142 
143 


144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 
159 
160 


161 
162 
163 


return tf.cast( 

tf.nn.sampled softmax loss( 

localWt, # Should have shape [num classes, dim] 

localB, 

labels, 

localInputs, 

self.args.softmaxSamples, # The number of classes to randomly sample per 
batch 

self.textData.getVocabularySize()), # The number of classes 

self.dtype) 


# Creation of the rnn cell 

def create rnn cell(): 

encoDecoCell = tf.contrib.rnn.BasicLSTMCell( # Or GRUCell, LSTMCell (args. 
hiddenSize) 

self.args.hiddenSize, 

) 

if not self.args.test: 4 TODO: Should use a placeholder instead 

encoDecoCell = tf.contrib.rnn.DropoutWrapper ( 

encoDecoCell, 

input keep prob-1.0, 

output keep prob=self.args.dropout 

) 

return encoDecoCell 

encoDecoCell - tf.contrib.rnn.MultiRNNCell( 

[create rnn cell() for _ in range(self.args.numLayers)], 

) 


# Network input (placeholders) 


with tf.name scope('placeholder encoder'): 

self.encoderInputs = [tf.placeholder(tf.int32, [None, ]) for _ in 
range(self.args.maxLengthEnco)] # Batch size * sequence 
length * input dim 


with tf.name_scope('placeholder_decoder') : 
self.decoderInputs = [tf.placeholder(tf.int32, [Мопе, ], name='inputs') 
for _ in range(self.args.maxLengthDeco)] # Same 


sentence length for input and output (Right ?) 


164 


165 


166 


167 
168 


self.decoderTargets = [tf.placeholder(tf.int32, [None, ], name='targets') 
for _ in range(self.args.maxLengthDeco) ] 

self.decoderWeights = [tf.placeholder(tf.float32, [None, ], 
name-'weights') for _ in range(self.args.maxLengthDeco) ] 


# Define the network 

# Here we use an embedding model, it takes integer as input and convert 
them into word vector for 

# better word representation 
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decoderOutputs, states = tf.contrib.legacy seq2seq.embedding rnn_seq2seq( 
self.encoderInputs, # List«[batch-?, inputDim-1]», list of size args. 
maxLength 

self.decoderInputs, # For training, we force the correct output (feed 
previous-False) 

encoDecoCell, 

self.textData.getVocabularySize(), 

self.textData.getVocabularySize(), # Both encoder and decoder have the 
same number of class 

embedding size-self.args.embeddingSize, # Dimension of each word 

output projection-outputProjection.getWeights() if outputProjection else 
None, 

feed previous-bool(self.args.test) # When we test (self.args.test), we 
use previous output as next input (feed previous) 

) 


if self.args.test: 

if not outputProjection: 

self.outputs - decoderOutputs 

else: 

self.outputs = [outputProjection(output) for output in decoderOutputs] 


# TODO: Attach a summary to visualize the output 


# For training only 

else: 

# Finally, we define the loss function 

self.lossFct - tf.contrib.legacy seq2seq.sequence loss( 
decoderOutputs, 

self.decoderTargets, 

self.decoderWeights, 

self.textData.getVocabularySize(), 

Softmax loss function- sampledSoftmax if outputProjection else None # If 
None, use default SoftMax 

) 

tf.summary.scalar('loss', self.lossFct) # Keep track of the cost 


# Initialize the optimizer 

opt = tf.train.AdamOptimizer( 

learning rates-self.args.learningRate, 
betal=0.9, 

beta2=0.999, 

epsilon=le-08 

) 

self.optOp = opt.minimize(self.lossFct) 


def step(self, batch): 
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224 feedDict = {} 
225 орв = None 


227 if not self.args.test: # Training 

228 for i in range(self.args.maxLengthEnco): 

229 feedDict [self.encoderInputs[i]] = batch.encoderSegs [i] 
230 for i in range(self.args.maxLengthDeco) : 

231 feedDict [self.decoderInputs[i]] = batch.decoderSeqs[i] 
232 feedDict [self.decoderTargets[i]] = batch.targetSeqs[i] 
233 feedDict[self.decoderWeights[i]l] = batch.weights [i] 


235 ops - (self.optOp, self.lossFct) 

236 else: # Testing (batchSize == 1) 

237 for i in range(self.args.maxLengthEnco): 

238 feedDict[self.encoderInputs[i]] = batch.encoderSeqs[i] 
239 feedDict[self.decoderInputs[0]] = [self.textData.goToken] 


241 ops = (self.outputs, ) 


243 # Return one pass operator 
244 return ops, feedDict 


79 — 100 行 ,初始 化 网 络 模型 参数 。 

sequence-to-sequence 模型 ， 包 含 2 个 RNN 网 络 : encoder 和 decoder， 它 们 可 以 共享 
weights， 或 者 使 用 不 同 的 参数 集合 。 

口 encoder input: АВС; 

(J decoder input: <go>WXYZ; 

О decoder output 或 者 decoder targets: WX YZ<eos>. 


Ww X Y Z <eos> 


A B C <g> М x Y Z 


105 ~ 212 行 ， 创 建 网 络 。 

142 ~ 152 行 ， 创 建 LSTM 单元 并 添加 dropout. 

153 ~ 155 行 ， 创 建 多 层 LSTM。 

159 一 165 行 ， 创 建 encoder input, decoder input, decoder output, decoder weights 占 
位 符 。 

170 ~ 179 fT, XE X. sequence-to-sequence 网 络 。 
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上 面 这 张 图 是 两 个 三 层 LSTM 网 络 ， 左 边 三 层 ， 右 边 三 层 ， 左 右 网 络 结构 一 样 。LSTM3_ 
in 的 输出 到 LSTM3_out 的 输出 再 使 用 全 连接 ，LSTM2_out 每 层 网 络 需 要 接收 对 应 层 
LSTMI in 的 输出 。 

我 们 的 网 络 使 用 的 是 两 个 两 层 LSTM 网 络 ， 其 他 和 上 图 一 样 。 

О output projection : 如 果 你 的 训练 vocabularies 很 大 ， 那 么 每 次 LSTM 的 输出 就 是 
一 个 很 大 的 tensor 包含 每 种 可 能 性 的 概率 。 使 用 这 个 参数 你 可 以 每 次 只 算 一 部 分 
vocabularies 在 每 种 可 能 性 上 的 概率 ， 最 后 再 映射 完整 的 大 tensor 上 。 

口 feed previous : False, decoder 总 是 使 用 decoder inputs, True, decoder 只 使 用 第 一 
个 decoder inputs 元 素 ， 之 后 的 每 次 decoder input 都 是 使 用 前 一 次 decoder 的 输出 
结果 。 

179 17, feed previous 设置 成 False 表示 。 

196 ~ 202 17, XE X. loss 函数 。 

206 ~ 212 47, Н AdamOptimizer 优化 器 最 小 化 loss。 

214 ~ 244 行 ， 填 充 占 位 符 ， 返 回 优化 器 Op. | 

请 注意 ， 在 使 用 这 个 聊天 机 器 人 之 前 需要 安装 一 个 叫做 nltk 的 工具 : 


python3 -m nltk.downloader punkt 
运行 方式 (训练 ): 
Python3 main.py 


请 注意 ， 这 段 代 码 是 用 Python 3.x 版 本 来 书写 的 ， 所 以 在 “ 玩 夏 ” 它 之 前 请 确定 自己 
的 Python 版 本 为 3.5 或 者 3.6 版 本 。 


data@ubuntu:~$ python3.6 

Python 3.6.0 (default, Mar 28 2017, 20:41:29) 

[GCC 5.4.0 20160609] on linux 

Type "help", "copyright", "credits" or "license" for more information. 


>>> 


安装 方法 可 以 参考 后 面 的 附录 部 分 ， 也 很 简单 。 
在 训练 好 模型 之 后 ， 如 果 想 开始 使 用 或 者 说 测试 这 个 聊天 机 器 人 ， 需 要 运行 : 


python3 main.py -test interactive 
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最 后 只 强调 一 点 吧 ， 就 是 聊天 机 器 人 训练 的 时 候 是 严重 依赖 话 术 库 的 。 换 言 之 ， 你 拿 
美剧 字幕 作为 训练 样本 给 机 器 人 ， 它 学 出 来 就 是 美剧 翻译 腔 ; 你 拿 《 红 楼 梦 》 给 它 学 ， 它 
学 出 来 就 是 《红楼 梦 》 风 格 ; 你 拿 一 本 婚姻 法 和 一 本 刑法 给 它 学 ， 它 学 出 来 就 是 法 律 条 文 
的 陈 词 …… 总 之 ， 这 种 机 器 人 对 于 场景 是 十 分 敏感 的 ， 在 应 用 中 这 一 点 要 在 开始 训练 之 前 
先 考虑 好 ， 以 免 学 出 来 一 个 除了 打 贫 就 是 打 贫 的 糊涂 机 器 人 。 


8 小 结 


RNN 从 20 世纪 80 年 代 第 一 次 作为 一 种 新 的 网 络 连接 结构 被 提 以 来 经 过 了 三 十 多 年 的 
发 展 ， 目 前 的 КММ 理论 层面 的 突破 并 不 快 。 在 1997 年 提出 的 LSTM 网 络 算法 直到 今天 还 
是 工业 界 最 常用 的 算法 模型 。 

在 各 公司 训练 的 聊天 机 器 人 及 其 变种 也 是 以 深度 LSTM 网 络 为 基础 的 。 应 该 说 在 近期 
相关 的 “多 对 一 ”一 对 多 ”“ 多 对 多 ”的 应 用 场景 仍然 是 以 LSTM 作为 首选 。 而 且 由 于 这 种 
网 络 的 复杂 度 很 高 ， 训 练 的 过 程 中 仍然 是 以 相对 固定 的 场景 、 具 象 性 比较 强 的 场景 作为 先 
决 条 件 比 较 好 。 尽 量 不 要 做 一 些 适 配 性 强 、 兼 容 性 广 的 机 器 人 模型 ， 往 往 效果 很 不 如 人 意 。 

请 注意 ， 这 种 具象 性 强 和 场景 固定 的 要 求 不 仅仅 是 在 LSTM 网 络 模型 中 才 有 ， 在 其 他 
的 应 用 场景 中 也 是 希望 边界 划 定 清晰 、 功 能 单一 ， 这 样 才 比 较 容 易 实现 应 用 效果 。 这 样 的 
局 限 性 可 以 认为 是 样本 的 缺乏 所 带 来 的 问题 ， 也 是 理论 层面 没有 本 质 性 突破 之 前 深度 学 习 
所 面临 的 最 严重 的 问题 。 
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Сре 2: 第 9 章 


深度 残 差 网 络 


随 着 人 们 对 于 神经 网 络 技术 的 不 断 研究 和 尝试 ， 每 年 都 会 诞生 很 多 新 的 网 络 结构 或 模 
型 。 这 些 模 型 大 都 有 着 经 典 神经 网 络 的 特点 ， 但 是 又 会 有 所 变化 。 你 说 它们 是 杂交 也 好 ， 
是 变种 也 墨 ， 总 之 针对 神经 网 络 创新 的 各 种 办 法 那 真 叫 大 开 脑 洞 。 而 这 些 变化 通常 影响 的 
都 是 使 得 这 些 网 络 在 某 些 分 支 领域 或 者 场景 下 的 表现 更 为 出 色 (虽然 我 们 期 望 网 络 的 泛 化 性 
能 够 在 所 有 的 领域 都 有 好 的 表现 )。 深 度 残 差 网 络 (deep residual network) 就 是 众多 变种 中 
的 一 个 代表 ， 而 且 在 某 些 领域 确实 效果 不 错 ， 例 如 目标 检测 (object detection). 


9.1 应 用 场景 


对 于 传统 的 深度 学 习 网 络 应 用 来 说 ， 我 们 都 有 这 样 一 种 体会 ， 那 就 是 网 络 越 深 所 能 学 
到 的 东西 就 越 多 。 当 然 收敛 速度 同时 也 就 越 慢 ， 训 练 时 间 越 长 ， 然 而 深度 到 了 一 定 程度 之 
后 就 会 发 现 有 一 些 越 往 深 学 习 率 越 低 的 情况 。 深 度 残 差 网 络 的 设计 就 是 为 了 克服 这 种 由 于 
网 络 深度 加 深 而 产生 的 学 习 率 变 低 、 准 确 率 无 法 有 效 提升 的 问题 ， 也 称 作 网 络 的 退化 问题 。 
甚至 在 一 些 场景 下 ， 网 络 层 数 的 增加 反而 会 降低 正确 率 。 

关于 深度 残 差 网 络 的 介绍 资料 不 算 多 ， 至 少 比 起 传统 的 BP、CNN、RNN 网 络 的 介绍 资 
料 就 少 得 多 了 ， 我 这 边 参 考 的 是 何 恺 明 先 生 在 网 上 公开 的 一 个 介绍 性 资料 “ Deep Residual 


Networks——Deep Learning Gets Way Deeper”, © 


© 地 址 ; http://icml.cc/201 6/tutorials/icm!2016_tutorial_deep_residual_networks_kaiminghe.pdf. 
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CIFAR-10 
train error (%) test error (%) 
20 20 
56-layer 
56-layer 
10 10 
20-layer 
£ 20-layer 
б T_T ek eee i © aa SC 
iter (le4 ) iter (le4 ) 


说 到 对 比 传统 的 卷 积 神经 网 络 在 做 分 类 器 的 时 候 ， 在 加 深 网 络 层 数 的 过 程 中 是 会 观察 
到 一 些 出 乎 意料 的 现象 的 。 例 如 在 CIFAR-10 项 目 上 使 用 56 层 的 3 x 3 卷 积 核 的 网 络 其 错误 
率 无 论 是 训练 集 上 还 是 验证 集 上 ， 都 高 于 20 层 的 卷 积 网 络 ， 这 就 乾 估 了。 通常 为 了 让 网 络 
学 到 更 多 的 东西 ， 是 可 以 通过 加 深 网 络 的 层 数 ， 让 网 络 具 备 更 高 的 VC 维 这 样 的 手段 来 实 
现 的 。 但 眼前 的 事实 就 是 这 样 ， 加 到 56 层 的 时 候 ， 其 识别 错误 率 要 比 在 20 层 的 时 候 更 加 
糟糕 。 

这 种 现象 的 本 质问 题 是 由 于 出 现 了 信息 丢失 而 产生 的 过 拟 合 问题 。 这 些 图 片 在 经 过 多 
层 卷 积 的 采样 后 在 较 深 的 网 络 层 上 会 出 现 一 些 奇怪 的 现象 ， 就 是 明明 是 不 同 的 图 片 类 别 ， 
但 是 却 产生 了 看 上 去 比较 近似 的 对 网 络 的 刺激 效果 。 这 种 差距 的 减 小 也 就 使 得 最 后 的 分 类 
效果 不 会 太 理想 ， 所 以 解决 思路 应 该 是 尝试 着 使 它们 引入 这 些 刺激 的 差异 性 和 解决 泛 化 能 
力 为 主 。 所 以 才 会 考虑 较 大 尺度 地 改变 传统 CNN 网 络 的 结构 ， 而 结果 也 没有 让 我 们 失望 ， 
新 型 的 深度 残 差 网 络 在 图 像 处 理 方面 表现 出 来 的 优秀 特性 确实 令 我 们 眼前 一 亮 。 


ResNet's object detection result on COCO 
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到 目前 为 止 ， 在 图 像 分 类 (image classification)、 对 象 检测 (object detection), i& 4} 
#1] (semantic segmentation) 等 领域 的 应 用 中 ， 深 度 残 差 网 络 都 表现 出 了 和 良好 的 效果 。 上 面 
这 几 张 图 都 是 尝试 用 深度 残 差 网 络 在 一 张 图 片 中 去 识别 具体 的 一 个 目标 ， 每 个 目标 的 属性 
标注 是 基于 微软 的 COCO 数据 集 2 的 数据 标识 。 物 品 (A) 的 框图 上 还 标注 了 一 个 小 数 ， 这 
个 数字 就 是 概率 ， 或 者 称 确 信 度 ( precision)， 指 模型 识别 这 个 物体 种 类 的 确信 和 度 。 我 们 能 
看 到 ， 在 这 个 图 片 中 大 部 分 物体 的 识别 还 是 非常 准确 的 。 


9.2 ”结构 解释 与 数学 推导 


深度 网 络 有 个 巨大 的 问题 ， 那 就 是 随 着 深度 的 加 深 ， 很 容易 出 现 梯 度 消失 和 梯度 爆炸 
的 问题 。 


Ө http://mscoco.org/， 微 软 的 COCO Dataset. 
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前 面 我 们 也 提 过 这 个 问题 ， 因 为 网 络 深度 太 大 所 以 残 差 传播 的 过 程 在 层 与 层 之 间 求 导 
的 过 程 中 会 进行 相 乘 县 加 ， 一 个 小 于 1 或 一 个 大 于 1 的 数字 在 经 过 150 层 的 指数 于 加 就 会 
变 得 很 大 或 者 很 小 ， 我 们 自己 手 算 一 下 也 能 算出 来 ，0.8 
的 150 次 方 大 约 是 2.9x10, 1.2 的 150 次 方 大 约 是 
7.5 x 10"， 这 两 种 情况 都 是 极为 严重 的 灾难 ， 任 何 一 种 都 
会 导致 训练 劳 而 无 功 。 any two 
在 传统 的 平 网 络 (plain network) 中 ， 一 层 的 网 络 的 数 месе рур» 
据 来 源 只 能 是 前 一 层 网 络 ， 就 像 上 图 这 样 ， 数 据 一 层 一 层 
向 下 流 。 对 于 卷 积 神 经 网 络 来 说 ， 每 一 层 在 通过 卷 积 核 后 
都 会 产生 一 种 类 似 有 损 压 缩 的 效果 ， 可 想 而 知 在 有 损 压 缩 到 一 定 程 度 以 后 ， 分 不 清楚 原本 
清晰 可 辩 的 两 张 照片 并 不 是 什么 意外 的 事情 。 这 种 行为 叫 有 损 压 缩 其 实 并 不 合适 ， 实 际 在 
工程 上 我 们 称 之 为 降 采 样 ( downsampling) 就 是 在 向 量 通过 网 络 的 过 程 中 经 过 一 些 滤 波 
器 (filter) 的 处 理 ， 产 生 的 效果 就 是 让 输入 向 量 在 通过 降 采 样 处 理 后 具有 更 小 的 尺寸 ， 在 卷 
积 网 络 中 常见 的 就 是 卷 积 层 和 池 化 层 ， 这 两 者 都 可 以 充当 降 采 样 的 功能 属性 。 主 要 目的 是 
为 了 避免 过 拟 合 ， 以 及 有 一 定 的 减少 运算 量 的 副作用 。 在 深度 残 差 网 络 中 ， 结 构 出 现 了 比 
较 明 显 的 变化 。 
在 这 种 情况 下 ,会 引入 这 种 类 似 “ 短 路 ” 式 的 设计 ， - Residual net 
将 前 若干 层 的 数据 输出 直接 跳 过 多 层 而 引入 到 后 面 数据 层 
的 输入 部 分 ， 如 图 所 示 。 这 会 产生 什么 效果 呢 ? 简单 说 就 
是 前 面 层 的 较为 “清晰 ”一 些 的 向 量 数据 会 和 后 面 被 进 一 Fo 
步 “ 有 损 压 缩 ” 过 的 数据 共同 作为 后 面 的 数据 输入 。 而 对 
比 之 前 没有 加 过 这 个 “短路 ”设计 的 平 网 络 来 说 ， 缺 少 这 
部 分 数据 的 参考 ， 本 身 是 一 种 信息 丢失 的 现象 本 质 。 本 来 
一 个 由 2 层 网 络 组 成 的 映射 关系 我 们 可 以 称 之 为 F(x) 的 这 
样 一 个 期 望 函 数 来 拟 合 ， 而 现在 我 们 期 望 用 H(x) = F(x)+x 来 拟 合 ， 这 本 身 就 引入 了 更 为 丰 
富 的 参考 信息 或 者 说 更 为 丰富 的 维度 (特征 值 )。 这 样 网 络 就 可 以 学 到 更 为 丰富 的 内 容 。 
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IX KA ERE p =P RE AF. VGG-19, 34 层 的 “ 平 网 络 ” 一 一 也 就 是 普 
ii 34 层 的 CNN 网络， 还 有 34 层 的 深度 残 差 网 络 。 
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在 深度 残 差 网 络 的 设计 中 通常 都 是 一 种 “力求 简洁 ”的 设计 方式 ， 只 是 单纯 加 深 网 
络 ， 所 有 的 卷 积 层 几乎 都 采用 3x3 的 卷 积 核 ， 而 且 绝 不 在 隐藏 层 中 设计 任何 的 全 连接 
层 ， 也 不 会 在 训练 的 过 程 中 考虑 使 用 任何 的 DropOut 机 制 。 以 2015 年 的 ILSVRC & COCO 
Copetitions 为 例 ， 以 分 类 为 目的 的 深度 残 差 网 络 “ ImageNet Classfication ”居然 能 够 达到 
152 层 之 深 ， 也 算是 破 了 纪录 了 。 


F(x) hix) 





Xm =f (hix) + Fx)) 


这 种 短路 层 引 和 人 后 会 有 一 种 有 趣 的 现象 ， 就 是 会 产生 一 个 非常 平滑 的 正 向 传递 过 程 。 
我 们 看 x), 和 其 前 面 一 层 x 的 关系 是 纯粹 一 个 线性 全 加 的 关系 。 如 果 进 一 步 推 导 x,, 及 其 以 
后 层 的 输出 会 发 现 展开 后 是 这 样 一 个 表达 式 : 


Xm =X + F(x) 


хы = Хь + Р(Х) 
хь =X) + Р(х,у) + Р(х) 





1-1 
x, =х,+ 9 F(x) 
“1 


也 就 是 后 面 的 任何 一 层 x 向 量 的 内 容 会 有 一 部 分 由 其 前 面 的 某 一 层 x 线性 贡献 。 
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好 ， 现 在 看 反 向 的 残 差 传递 ， 也 是 一 个 非常 平滑 的 过 程 。 这 是 刚才 我 们 看 到 的 某 层 输 
出 x, 的 函数 表达 式 


х,=х +$ F(x) 
那么 残 差 我 们 定义 为 E (就 是 Loss), MBA 
E- 7, хы.) 


后 面 的 хы, 表示 的 是 在 当前 样本 和 标签 给 定 情况 下 某 一 层 x, 所 对 应 的 理想 向 量 值 ， 这 
个 残 差 表示 它 就 可 以 了 。 下 面 又 是 老生 常 谈 的 求 导 过 程 了 ， 这 里 就 是 用 链 式 法 则 可 以 直接 
求 出 来 的 ， 很 简单 


注意 这 个 地 方 ， 用 白话 解释 就 是 任意 一 层 上 的 输出 x, 所 产生 的 残 差 可 以 传递 回 其 前 面 
的 任意 一 层 的 x 上， 这 个 传递 的 过 程 是 非常 “ 快 ”或 者 说 “直接 ”的 ， 那么 它 在 层 数 变 多 
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Q^» F 
的 时 候 也 不 会 出 现 明显 的 效率 问题 。 而 且 还 有 一 个 值得 注意 的 地 方 ， ams, 7002 T 
x, 


1 


LED 22 9122 是 一 一 个 线性 县 加 的 过 程 而 非 连 乘 ， 所 以 它 自然 也 不 太 可 能 出 现 梯 度 消 


KA. X EIU) UMORE ижин ARC RO ORD LAU, Ж 
НИЯ Н BR AL HE TP A ГЈ НТІ EO] BE. 


补充 说 明 一 下 ， 已 = 了 Cu xa PD ER AE EAA ZK, 


指 代 它们 的 残 差 和 输出 值 。 大 家 请 注意 ， 在 一 个 多 层 的 网 络 中 ， 每 一 层 我 们 都 可 以 认为 
是 一 种 分 类 器 模型 ， 只 不 过 每 一 层 分 类 器 的 具体 分 类 含义 人 类 很 难 找 到 确切 的 并 且 令 人 
信服 的 物理 解释 。 然 而 每 一 层 的 各 种 神经 元 在 客观 上 确实 充当 着 分 类 器 的 功能 ， 它 将 前 
面 一 层 输入 的 向 量 进行 采样 并 映射 为 新 的 向 量 空间 分 布 。 所 以 从 这 个 角度 去 解释 的 话 ， 


E - 76x, xowe》 可 以 看 成 指 代 任何 一 个 “断章取义 ”的 网 络 片段 也 没 问题 ， 也 就 不 强调 这 
个 损失 函数 一 定 是 由 最 后 一 层 传 到 前 面 某 一 层 去 的 了 。 


9.3 ”拓扑 解释 


除了 前 面 我 们 提 到 的 这 种 基于 网 络 各 层 函 数 表 达 式 的 解释 以 外 ， 深 度 残 差 网 络 的 学 习 
能 力 强 、 有 好 的 性 能 表现 还 有 一 种 解释 ， 我 们 把 这 种 解释 可 视 化 一 下 





短路 项 相当 于 像 上 图 这 样 把 所 有 的 一 个 一 个 网 络 短 接 了 过 去 ， 而 这 些 短 接 过 去 的 部 分 
其 实 形成 了 新 的 拓扑 结构 。 


Building block 
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例如 刚刚 的 A、、 记 这 三 个 网 络 通过 短 接 之 后 其 实 就 演变 成 了 右边 这 样 一 个 拓扑 结构 ， 
我 们 可 以 清楚 地 看 到 ， 这 相当 于 是 多 个 不 同 的 网 络 模型 做 了 融合 或 并 联 。 将 前 面 的 向 量 信 
上 县 通过 多 个 不 同 的 分 类 器 模型 将 结构 反馈 到 后 面 去 。 而 没 变化 之 前 只 有 最 下 面 的 一 条 串联 
结构 ， 这 两 种 模型 的 不 同 正 是 造成 它们 学 习 能 力 不 同 的 关键 。 






weight layer 


F(x) 


残 差 网 络 中 的 特殊 点 就 在 于 刚刚 的 这 个 结构 就 是 将 这 样 一 个 一 个 的 带 有 ShortCut 部 分 
的 单元 头 尾 相 接连 在 一 起 。 笔 者 在 Keras 这 种 框架 中 发 现 它 提供 了 两 种 不 同 的 ShortCut 单 
元 以 供 使 用 , 一 种 是 带 有 卷 积 项 的 ,一 种 是 不 带 有 卷 积 项 的 。 


үе! 





res2a_branch2a 
res2b_branch2a 
bn2a_branch2a 
bn2b branch2a 
scale2a_branch2a 
scale2b branch2a 
res2a branch2a relu 
res2b branch2a relu 


2а ch2 р 5 
res2a branch2b res2b branch2b 


bn2a_branch2b 
scale2a_branch2b 


res2a_branch2b_relu 


bn2b branch2b 
scale2b_branch2b 


res2b branch2b relu 


res2a_branch1 res2a_branch2c res2b branch2c 


bn2a_branch1 bn2a branch2c bn2b branch2c 


scale2a branch1 scale2a branch2c scale2b branch2c 





这 里 提 一 句 Keras, Keras 也 是 一 个 非常 好 的 深度 学 习 框 架 ， 或 者 说 “ 壳 子 ”更 合适 。 
它 提供 了 更 为 简洁 的 接口 格式 ， 能 够 让 使 用 者 在 非常 短 的 代码 中 实现 很 多 模型 描述 信息 ， 
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它 的 后 端 支持 TensorFlow 和 Theano 两 种 框架 作为 后 台 实 现 (backend), {Е TensorFlow 中 
描述 很 复杂 的 过 程 ， 可 以 在 Keras 里 封装 地 非常 好 ， 所 以 在 实际 工作 中 笔者 也 经 常 使 用 
Keras “HA” Ж TensorFlow 去 做 工程 ， 代 码 可 读 性 会 好 很 多 。 大 家 有 兴趣 可 以 去 试 一 下 ， 
本 书后 面 的 附录 也 提供 了 Keras 的 安装 文档 以 供 参 考 。 


9.4 Github 示例 


关于 深度 残 差 网 络 的 实现 在 Github 上 有 很 多 人 都 上 传 过 ， 这 里 我 们 也 尝试 过 一 些 版 本 ， 
例如 : 

https://github.com/ry/tensorflow-resnet 

https://github.com/raghakot/keras-resnet/blob/master/resnet.py 

前 者 还 可 以 从 网 上 下 载 一 个 Pretrained Model， 都 是 模型 制作 人 自己 使 用 一 些 数据 集训 
练 的 一 些 模型 状态 。 我 们 可 以 认为 它 算 是 具备 一 定 识别 能 力 的 “半成品 ” 。 


Pretrained Model 


To convert the published Caffe pretrained model, run convert „ру . However Caffe is annoying to install so I'm providing а 
download of the output of convert.py: 


tensorflow-resnet-pretrained-20160509tar.gz torrent 464M 





在 自己 应 用 的 场景 中 ， 可 以 根据 需要 在 将 这 些 “ 半 成 品 ”初始 化 后 继续 用 一 些 数据 集 
训练 ， 使 其 更 能 适 配 自己 所 指派 的 场景 。 这 种 方式 在 工程 中 也 很 多 见 ， 毕 竟 要 得 到 人 家 这 
个 “半成品 ”的 水 平 也 要 自己 花费 极 多 的 人 力 成 本 和 时 间 成 本 。 

何 恺 明 先 生 自己 也 公开 了 一 种 实现 方式 ， 地 址 在 https://github.com/KaimingHe/deep- 
residual-networks， 不 过 是 在 Caffe 上 实现 的 ， 有 兴趣 研究 Caffe 框架 的 朋友 可 以 做 个 参考 。 
具体 的 代码 我 们 就 不 展开 细 讲 了 。 


9.5 ”小结 


应 该 说 ， 残 差 网 络 的 发 明 是 对 网 络 连接 结构 的 又 一 种 有 益 的 尝试 ， 而 且 实 际 效果 还 确 
实 不 错 。 曾 经 有 人 问 过 我 ， 如 果 深 度 残 差 网 络 中 不 是 用 一 个 ShortCut 跳 过 两 个 卷 积 层 ， 而 
是 跳 过 1 个 或 者 3 个 或 者 其 他 数量 会 有 什么 结果 。 

这 个 问题 很 难 回答 ,但 是 问题 本 身 并 非 没 有 意义 。 

首先 ， 跳 过 1 个 也 好 3 个 也 轴 ， 每 一 种 不 同 的 链接 方式 都 是 一 种 新 的 网 络 拓扑 结构 ， 
有 着 不 同 的 分 类 能 力 。 由 于 神经 网 络 本 身 的 构造 就 非常 复杂 ， 经 过 这 样 的 拓扑 结构 改变 后 
直接 讨论 两 种 具备 不 同 拓扑 结构 网 络 的 学 习 能 力也 就 比较 困难 。 不 过 有 一 点 可 以 确定 ， 那 
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就 是 网 络 发 生 类 似 “ 并 联 ” 的 情况 是 会 提高 网 络 本 身 学 习 的 容纳 能 力 的 。 至 于 在 哪个 场景 ， 
有 多 大 程度 的 能 力 提高 ， 需 要 在 实验 中 不 断 尝试 和 对 比 ， 从 而 总 结 归纳 出 一 些 新 的 理论 成 
果 。 所 以 其 实 理论 上 确实 不 能 排除 跳 过 1 个 或 者 3 个 层 来 做 短 接 在 其 他 一 些 分 类 领域 会 有 
更 好 的 效果 ， 这 需要 具体 的 实验 和 论证 过 程 。 现 在 国际 上 每 年 出 现 的 一 些 新 的 关于 网 络 结 
构 调整 的 论文 也 都 是 基于 一 些 实验 而 归纳 出 来 的 理论 ， 虽 然 大 部 分 谈 不 上 什么 重大 突破 ， 
不 过 科研 这 种 东西 总 要 有 一 个 积 量 变 为 质变 的 过 程 。 

我 倒是 认为 ， 大 家 在 工作 的 过 程 中 ,一 方面 多 关注 国际 上 最 新 的 一 些 论文 和 实验 成 果 ， 
一 方面 也 可 以 在 自己 掌握 的 理论 基础 上 大 胆 提出 一 些 新 的 观点 并 进行 论证 尝试 。 这 同样 是 
一 种 值得 鼓励 的 科研 态度 ， 也 是 得 到 经 验 的 好 方法 。 
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受 限 玻 尔 兹 曼 机 


说 到 受 限 玻 尔 效 曼 机 (restricted boltzmann machine，RBM)， 一 定 会 有 人 问 “ 那 不 受 限 
的 玻 尔 效 曼 机 ”是 啥 样子 的 。 不 受 限 的 玻 尔 兹 曼 机 肯定 是 有 的 ， 只 不 过 这 种 “不 受 限 ”的 
玻 尔 兹 曼 机 在 工程 上 实在 是 派 不 上 什么 用 场 ， 所 以 通常 就 机 器 学 习 领 域 的 研究 来 说 ， 只 学 
习 受 限 玻 尔 兹 曼 机 的 原理 就 可 以 了 。 


10.1 结构 
咱们 先 来 看 看 这 种 RBM 的 结构 是 什么 样子 的 吧 。 


h, 
©, 





样子 看 上 去 土 土 的 是 不 是 ， 比 我 们 前 面 看 的 BP、CNN、RNN 差 远 了 。 它 的 最 简化 模 
型 只 有 两 层 ， 一 层 叫 隐藏 层 (hidden 层 )， 一 层 叫 可 视 化 层 (visible 层 ) 。 在 实际 工作 中 ， 
RBM 是 可 以 多 层 登 加 在 一 起 工作 的 ， 不 过 我 们 只 看 这 个 最 简化 的 模型 一 一 两 层 的 模型 ， 看 
它 是 怎么 工作 。 

Eit А, BA, den SC, PRA v; 到 vw 是 m 个 实数 ,这些 实数 都 是 0 到 1 之 间 的 
数字 ， 它 们 各 自 组 成 了 一 个 hh 向量 和 一 个 v 向 量 。 中 间 的 每 条 线 上 都 有 一 个 权重 ,一 共有 
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m xn 个 权重 ,也 就 是 一 个 mxn W и Е. Iri ЖЕНУ EG T e, 到 cv， 下 面 的 可 
视 化 层 的 节点 上 则 写 了 b, 到 如， 它们 分 别 表 示 在 这 些 节点 上 所 形成 的 偏 置 值 。 也 就 是 说 ， 
在 训练 的 时 候 会 有 这 样 一 个 映射 关系 : 


Р(ћ =1|у) -o( Sm SY а) , piv, -1 = xh, +) 
ja iz 


这 两 个 表达 式 看 上 去 不 大 友好 ， 下 面 我 们 用 白话 解释 一 下 。 

当 上 面 所 有 的 输入 的 时 候 ,vi 和 加 З А, З п+1 个 节点 实际 上 组 成 了 一 个 小 网 络 ， 束 
x h 向 量 和 Уу, 上 这 т 个 w 做 了 内 积 一 一 也 就 是 hwy, + hw, 2 ВМ» 后 面 加 上 一 个 Vi 
上 的 偏 置 各， 之 后 的 和 再 过 一 下 /() = 二 这 个 两 数 ， 最 后 输出 w。 同 理 几 到 ww 也 是 一 
样 的 计算 方法 ， 只 不 过 权重 乘 的 是 它们 各 自 连接 的 权重 而 已 。 

等 等 ， 还 没完 。 同 样 ， 反 过 来 ， 当 下 面 所 有 的 v 输 入 的 时 候 ,h 的 计算 就 是 这 样 了 ，v 


和 加 上 的 权重 w 做 内 积 , 再 加 上 cj， 之 后 的 和 再 过 一 下 Л) - — 这 个 函数 ， 最 后 输出 


Ayo 同 理 得 到 л, 到 加。 过 程 并 不 复杂 ， 就 是 看 着 表达 式 略 显 头晕 而 已 。 
这 种 模型 有 趣 的 地 方 就 在 于 输入 输出 两 侧 同 时 放 人 样本 ， 可 以 互 为 输入 和 输出 形成 一 
个 映射 关系 。 


10.2 ”逻辑 回归 


在 讲 玻 尔 兹 曼 机 的 损失 函数 之 前 ， 还 是 需要 先 铺垫 一 个 概念 ， 那 就 是 最 大 似 然 度 以 及 
逻辑 回归 。 我 们 先 来 说 逻辑 回归 。 有 的 读者 朋友 可 能 已 经 听 说 过 逻辑 回归 很 多 次 了 ， 而 且 
在 前 面 我 们 已 经 看 过 它 的 形式 了 。 

1 
ГО) = = 

这 里 的 x 是 个 向 量 。 其 实 如 果 把 wx+b 当成 一 个 自 变 量 z Bde. BBA у= (2) 的 图 像 就 是 
一 个 Sigmoid ph RX A(R 个 Ss 曲线。 我们 现在 的 问题 是 ， 为 什么 是 这 么 个 东西 ? TE 
么 来 的 ? 这 个 我 们 已 经 熟视无睹 的 东西 细 说 起 来 还 是 有 渊源 的 ， 听 我 慢 慢 说 。 

如 果 你 以 前 接触 过 “ 伯 努 利 分 布 ” 的 话 那 就 会 知道 ， 伯 努 利 分 布 其 实 就 是 二 项 分 布 。 


zx] 
ae 
1-р, n=0 





这 个 分 布 的 含义 就 是 说 在 有 的 随机 过 程 中 你 研究 某 个 事件 的 发 生 或 出 现 就 是 一 个 “是 ”或 
“和 否 ” 的 概念 ,“ 是 ”就 是 1,“ 否 ”就 是 0。 简单 说 ， 例 如 ， 如 果 我 们 可 以 观测 到 诸如 扔 硬 
币 这 种 事情 ， 产 生 正面 记 做 1， 产生 反面 记 做 0， 那么 经 过 若干 次 之 后 就 会 产生 一 个 统计 


ww ai bbt.com 60 00000 


第 10 章 “ 受 限 玻 尔 兹 曼 机 $ 211 


值 ， 就 是 产生 正面 的 次 数 m 与 总 次 数 4 的 比值 关系 ， 也 就 是 pz， 那么 背面 的 比值 就 是 1-p， 
不 存在 其 他 的 状态 。 伯 努 利 分 布 及 其 相关 的 延展 讨论 都 是 研究 这 样 一 种 只 有 两 种 可 能 性 的 
随机 过 程 中 事件 所 表现 出 来 的 特性 与 规律 。 


邻 它们 的 比值 了 5 为 s， 这 个 的 含义 就 是 一 个 确信 程度 的 含义 ， 或 者 说 是 1 和 0 两 
种 情况 的 概率 比值 。 取 := In(s)， 则 有 如 下 推导 : 


ED 


Ё. 
1-р 
©е(@-р)=р 
Фе =р+ер 
сЕ 
Tre” 
到 这 里 基本 就 看 明白 了 将 上 代 换 成 为 wr + b SEOK Т, f(x) 就 是 1 产生 的 概率 p， x 就 
是 一 个 多 维 向 量 。 也 就 是 : 


Фе = 





ep 


1 
р= Г) = е 
逻辑 回归 的 损失 函数 : 
Loss - — 3 y, -log f(x) (1 x)-log(l- f(x) 


ШТ EARE У ЗА 9 PEFR, EAS ЖАШАН. XXI PRÉC 
的 损失 由 两 部 分 构成 ， 当 标签 值 y 为 1 的 时 候 ， 后 面 的 项 恒 为 0， 描 述 损失 的 是 log f(x) 
项 ， 如 果 log f(x) 0, f(x) 必 为 1， 如 果 不 是 1 那么 fx) 越 小 则 损失 值 越 大 ; КЖ y, 
为 0 的 时 候 ， 前面 的 项 恒 为 0， 描 述 损失 的 是 (1-y) logd- 项 ， 如 果 1og(1-ftx))) 为 
0, f(x) 必 为 0， 如 果 不 是 0 那么 Дх) AMAA RAL, CE WIT TATE fh ЛЕ ЖОЙПУ ЖР ЗЇП 
已 经 详细 说 过 一 次 了 ， 在 这 里 就 不 再 袭 述 。 

这 里 的 wx+b 是 一 个 x 经 过 线性 变换 后 映射 到 一 维 空间 中 的 情形 一 一 这 个 部 分 最 后 输出 
是 一 个 实数 值 。 如 果 想 不 太 清楚 ， 就 想 y=kx+bp， 这 个 输出 的 y 就 是 映射 到 一 维 空间 后 的 结 


果 ， 当 然 》 的 大 小 直接 决定 了 p=/(y)= 一 -一 的 值 。 有 没有 感觉 相当 于 在 计算 一 个 距离， 


l+e” 
X у=0 的 时 候 p 是 0.5， 也 就 是 “1” 和 “0” 等 概率 ; 而 当 y 向 正 负 方向 “ 越 走 越 远 ” 的 时 
候 则 会 令 值 分 别 无 限 趋 近 于 “1” 或 “0”。 
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10.3 ”最 大 似 然 度 


逻辑 回归 的 含义 和 推导 过 程 基本 上 就 是 上 面 这 些 东 西 了 ， 但 是 这 些 东西 是 不 是 仍然 有 
一 些 理论 依据 呢 ? 其 实 也 是 有 的 ， 就 是 统计 学 中 的 最 大 似 然 度 (maximum likelihood) 或 最 
大 似 然 估计 的 概念 。 用 白话 来 说 ， 就 是 根据 统计 学 特性 估算 其 最 大 可 能 的 情况 这 样 一 种 方 
法 。 即 在 一 个 已 经 设 定 好 的 环境 中 ， 有 未 知 参 数 向 量 2， 概率 密度 函数 为 P(x)， 那 么 通过 一 
系列 随机 取 的 样本 xi, х,, +, ху HM ЖАЙ & ЖШ 9。 白 话 解释 : 有 这 么 一 个 观测 的 
过 程 ， 有 一 个 未 知 的 参数 向 量 9， 这 是 一 种 条 件 描述 。 观 测 对 象 数 据 用 x 来 表示 ， 那 么 在 观 
测 的 过 程 中 x 是 会 有 一 定 的 概率 分 布 的 。 把 这 个 分 布 表示 成 Р(х) 的 表达 式 。 那 么 如 果 你 观 
测 到 的 x 只 有 “1” 或 “0” 两 种 情况 ， 那么 Р(х) 的 表达 式 就 是 刚刚 说 的 伯 努 利 分 布 
p -| p: n=l 
"1-р, n=0 
如 果 你 观测 到 的 x 是 一 个 以 J 为 平均 值 、 以 o 为 标准 差 的 正 态 分 布 ， 那么 P(x) 就 应 该 表 
示 为 : 


а-и) 
е 20° 





P(x)= 


KAZ, Р(х) 就 用 来 做 概率 分 布 密度 的 描述 。 
那么 观测 值 x,，x,，…，xz 的 联合 密度 函数 应 为 : 


1 
V2ra 


L(x|0)=[] PG) 
tal 


其 中 这 个 I 读 作 “ 派 ”"， 其 实 就 是 圆周 率 x 的 大 写 形式 ， 不 过 大 写 的 DI 这 里 表示 的 不 是 圆 
周 率 而 是 连 乘 关 系 。 这 个 工 函 数 的 含义 就 是 似 然 度 (likelihood)， 不 是 Loss 的 含义 。 这 里 
表示 的 是 对 这 个 随机 过 程 观测 了 了 次 ， 如 果 是 扔 硬币 的 场合 可 以 就 认为 是 扔 了 了 次 硬币 做 
了 了 次 记录 。 其 中 我 将 X= (х, rz xD 视 为 一 个 自 变量 向 量 。 展 开 L(x|0) 会 得 到 
L(x|9) = P(x,|8)P(x4B)-* P(x:16) 

请 注意 这 里 写法 的 变化 ，PCcxl2) 和 Р(х) 是 同样 的 含义 ， 只 不 过 刚才 我 们 忽略 掉 了 这 个 待定 
系数 9， 而 在 这 里 我 们 把 它 写 全 了 ， 把 8 同样 当成 一 个 变量 向 量 ， 就 类 似 于 写成 f(x, Ө). iX 
个 地 方 不 用 太 过 纠结 ， 因 为 所 有 的 函数 表达 式 中 任何 一 个 项 或 系数 ， 如 果 你 想 把 它 当 作 变 
量 来 研究 变化 特性 的 时 候 ， 都 可 以 写作 多 元 函数 的 形式 。 例 如 = f(x) = kr+b， 这 里 相当 于 
我 只 研究 y 和 x 之 间 的 关系 ， 而 y= 了 (x, k, b) = kx+b 则 相当 于 我 在 这 个 场合 下 要 研究 y 和 x、 
k, b 三 个 变量 的 关系 ， 仅 此 而 已 。 

那么 对 于 一 个 确定 项 的 L(x|9) 函数 来 说 ， 我 们 希望 求 出 一 个 合适 的 0 向 量 的 数值 来 使 
得 这 个 连 乘 式 取得 最 大 值 ， 有 没有 觉得 突然 又 变 成 了 好 像 前 面 求 Loss 极 值 的 情况 ?如 果 要 
求 这 个 函数 的 极 值 点 ， 其 实 也 就 是 在 偏 导 数 等 于 0 的 点 作为 候选 点 中 去 找 ， 即 
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OL(x|9) _0 
00 
但 是 连 乘 式 求 极 值 是 比较 麻烦 的 事情 ， 多 个 8 的 函数 相 乘 会 给 计算 带 来 不 必要 的 复杂 性 。 
就 是 原来 在 中 学 的 时 候 我 们 也 有 这 样 的 体会 ， 乘 法 比 除 法 好 做 ， 加 减法 比 乘 法 好 做 ， 加 法 
比 减 法 好 做 ， 没 错 吧 ? 这 时 候 可 以 做 这 样 一 个 小 的 技巧 ， 求 对 数 。 
y 7 In(x) 
对 数 函 数 的 定义 域 是 xe(0,+%)， 而 概率 的 定义 是 (0, 1) 区 间 ， 定 义 域 方面 是 没有 问题 的 ， 


T 
而 由 于 y=In(x) 在 (0, 1) 区 间 是 一 个 单调 函数 而 且 是 增 函 数 ， 那 么 L(x19)=]]P(%,) 产生 极 


值 的 点 与 In(Z(x|9)) 取得 极 值 的 点 是 一 致 的 ， 问 题 也 就 化 简 成 了 求 

oln(L(x|0)) - 

00 
基于 统计 的 机 器 学 习 中 有 个 非常 重要 的 概念 就 是 线性 回归 概念 ， 在 本 书 的 最 开始 部 分 ， 
我 们 用 贺 轿 吞 吏 的 方式 学 习 了 一 下 用 计算 机 怎么 来 做 一 个 线性 回归 的 过 程 。 当 时 就 是 直接 
把 描述 残 差 的 损失 函数 表示 成 为 待定 系数 w 和 4 的 方程 ( 凸 函 数 )， 然 后 用 一 小 步 一 小 步 
“ 挪 ” 的 方式 去 找 合适 的 位 置 来 满足 损失 盟 数 最 小 。 从 工程 角度 来 说 ， 这 么 做 当时 没有 什么 
问题 。 从 学 术 的 角度 来 说 ， 对 于 一 个 完整 的 
X = WII 十 W2X2 十 … 十 WA 十 证 1 

来 说 ,x Bi x, 也 就 是 我 们 原来 一 直 说 的 维度 叫 作 “解释 变量 "， 而 xz 叫 作 “ 随 机 扰动 项 "， 
是 在 随机 过 程 中 的 一 种 不 确定 值 ， 且 这 个 不 确定 值 一 般 是 满足 正 态 分 布 的 : 

и ~ N(0, о?) 





即 中 心 为 0、 方 差 为 o 的 正 态 分 布 。 也 就 是 可 以 理解 为 这 种 观测 中 产生 的 误差 大 部 分 情况 
下 比较 小 且 接 近 于 0， 有 少量 概率 会 使 得 误差 比较 大 ， 误 差 越 大 的 情况 概率 越 小 。 如 此 一 
Ж. 无 的 分 布 就 变 成 了 : 

X — Ми, P), p= WIX tWt wax Fb 
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и РЕЖ ЛЕЙЛИ Т AMI, /这 个 等 式 就 是 web 的 由 来 。 





继续 推导 : 
L(w,o?) = P(x,x,,:,x,) 
T 
= Про) 
T 1 Qoi mal y 
(2x)! o" 
Ж: 


E 
Inno") = ло) +, -n ), t=1,2,°°,T 


tz 


这 里 的 1 就 代表 每 个 观测 样本 的 序列 号 。 

如 果 看 着 实在 不 大 明白 也 没关系 ， 记 住 一 个 跟 我 们 有 关 的 结论 就 行 ， 一 个 连 乘 关系 的 
最 大 值 可 以 通过 求 对 数 极 值 的 方法 找到 最 大 值 点 ， 而 且 它 最 大 值 的 位 置 和 其 取 对 数 后 的 极 
大 值 位 置 是 相同 的 。 


104 ”最 大 似 然 度 示例 


有 关 最 大 似 然 度 的 使 用 ， 我 们 就 看 一 个 最 简单 的 例子 找 找 感觉 好 了 。 

假设 在 一 个 箱子 里 放置 大 量 的 同样 大 小 的 白 球 和 黑 球 ， 然 后 随机 在 里 面 抽 取 1 个 ， 观 
测 再 放 回 ， 重复 100 次 。 发 现 有 80 次 是 白 球 ，20 次 是 黑 球 。 问 箱子 里 白 球 的 比例 是 多 少 ? 
从 感觉 上 来 看 ， 似 乎 应 该 是 有 80% 的 白 球 才 对 ， 但 是 数学 上 应 该 怎么 推导 呢 ? 来 看 过 程 。 


首先 这 是 一 个 典 开 的 伯 妈 分布 求 忆 =| 2 “一 ， 中 六 值 的 问题 简单 解释 就 是 在 一 


个 随机 过 程 的 观测 中 会 发 现 一 个 事件 发 生 的 概率 为 p， 不 发 生 的 概率 为 1-p。 根 据 伯 努 利 分 
布 律 来 计算 ， 
Р(х |@) 
= P(x, |8)P(x, |8)--- PG, |0) 
= p"(1- p)” 
其 中 9 就 是 待定 的 参数 ， 也 就 是 白 球 的 比例 。 问 题 就 变 成 了 9 参数 是 多 大 时 ，P(x|9) = 
p"(1-p)” 能 取得 极 大 值 。 
令 
Др) = р“(1-р)" 
RF: 
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song =80p”(1- p)” —20р®(1— р)” =0 


20(1—p)" p”(4-5p) = 0 
这 里 很 明显 可 以 看 到 有 几 种 情况 能 让 等 式 为 0， 等 于 0 的 地 方 就 是 ftp) 函数 的 极 值 点 候选 
位 置 。 

р=1, p=0, p=0.8 
这 三 个 值 是 “或 ”的 关系 ,但 是 很 容易 判断 出 p=1 和 p=0 是 方程 的 增 根 ， 只 有 p=0.8 的 情 
况 下 可 以 得 到 解 。 | 

这 就 是 一 个 最 大 似 然 度 在 伯 努 利 分 布 中 应 用 的 最 简单 的 例子 了 ， 和 希望 能 对 读者 朋友 更 

直观 地 认识 这 种 方法 有 帮助 。 


10.5 ”损失 因数 


言 归 正 传 ， 继 续 回来 看 受 限 玻 尔 效 曼 机 。 受 限 玻 尔 效 曼 机 的 损失 函数 叫做 对 比 散 度 函 
数 (contrasive divergence，CD)， 虽 说 听 着 名 字 还 是 不 知 所 云 ， 但 学 习 目 标 是 我 们 刚才 看 过 
的 最 大 似 然 度 一 一 要 让 网 络 学 习 到 一 个 矩阵 ， 使 得 网 络 中 拟 合 的 概率 “全 局 性 ”最 大 。 

受 限 玻 尔 效 曼 机 是 从 玻 尔 效 曼 机 中 演变 出 来 的 ， 其 中 玻 尔 效 曼 机 有 一 种 解释 是 能 量 解 
释 ， 一 种 基于 能 量 的 模型 (energy-based model)。 这 个 能 量 的 定义 是 : 


E(v,h| 0) = {z уу, +} by, «Уел 
ў і Ј 


其 中 的 0 就 是 参数 w、c 和 4b， 后 面 这 些 表 示 的 能 量 有 三 个 部 分 ,一 个 是 由 于 权重 w 连接 两 
WHA vA AER, 必须 三 个 都 为 1 才 算 有 能 量 的 输出 ; 另外 两 个 则 是 节点 上 的 偏 置 
和 节点 输入 的 向 量 维度 值 相 乘 ， 也 是 必须 都 为 1 才 算 有 能 量 的 输出 。 

P,(v,h) 2 n 


ДӨ) 是 归 一 化 因子 ， 和 损失 丽 数 里 最 前 面 的 —— 是 一 个 意思 。 也 就 是 表示 在 0 确定 的 情况 
F, 和 相互 拟 全 的 概率 。 如 果 只 观测 P(y)， 那 么 展开 就 是 : 
1 


рду) = Y emm 
200) 

而 最 大 化 这 个 函数 来 确定 9 就 是 相当 于 最 大 化 其 对 数值 : 

L6) - x inp) 


在 对 比 散 度 函数 的 思想 指导 下 ， 只 利用 这 两 个 公式 : 
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p(h, 19-o уо), piv, =118)=o( $w, xh +h) 
j=l 


然后 让 向 量 在 这 个 网 络 的 两 侧 不 断 “ 反 弹 ”。 初 始 化 网 络 权重 w， 用 一 个 向 量 "通过 网 络 映 
射 来 得 到 h ; 然后 是 第 一 次 “反弹 ”"， 用 hh 通 过 网 络 反 过 来 生成 vw ; 然后 是 第 二 次 “反弹 ”， 
用 这 个 v' 通 过 网 络 来 生成 。 然 后 根据 工 函数 的 导数 来 更 新 w。 每 个 向 量 都 如 此 尝试 。 


10.6 ”应 用 场景 


RBM 在 处 理 分 类 问题 、 降 维 、 特 征 提取 等 场景 中 都 有 一 些 应 用 。 在 很 多 场景 中 RBM 
可 以 进行 “ 串 并 联 ” 的 使 用 ， 也 就 是 通过 多 个 RBM 模型 来 形成 一 个 完整 的 工作 网 络 。 
RBM 的 应 用 其 实 不 如 现在 的 CNN 和 LSTM 网 络 那 么 流行 ， 在 Github 的 上 资源 数量 和 热度 
也 不 够 多 。 这 里 找到 了 两 个 例子 ， 大 家 有 兴趣 自己 翻 看 一 下 就 好 了 。 

https://github.com/meownoid/tensorfow-rbm， 是 用 来 做 解码 器 的 (autodecoder)。 

https://github.com/Cospel/rbm-ae-tft， 这 个 例子 是 用 来 做 降 维 工 具 的 。 


10.7 ”小结 


受 限 玻 尔 效 曼 机 在 笔者 的 工作 中 很 少 应 用 ， 所 以 很 深层 面 的 东西 也 确实 谈 不 到 ， 也 没 
有 掌握 其 奥义 所 在 。 

有 关 玻 尔 兹 曼 机 的 内 容 ， 大 家 如 果 感 兴趣 ， 还 是 去 找 相关 的 国外 文献 去 看 吧 。 不 过 可 
以 负责 任 地 告诉 大 家 ， 在 笔者 接触 过 的 大 中 型 互联 网 公司 的 同行 当中 我 也 做 过 一 些 调查 ， 
还 是 一 些 卷 积 神经 网 络 、LSTM 网 络 及 其 变种 的 应 用 比较 多 ， 可 以 说 是 绝 大 多 数 场景 了 。 

神经 网 络 的 强大 能 力 其 中 有 一 个 体现 就 是 使 用 者 可 以 根据 自己 的 喜好 和 判断 来 选择 各 
种 有 性 格 的 拓扑 结构 以 及 神经 元 和 激励 函数 来 做 尝试 ， 在 实验 有 比较 好 的 效果 后 就 可 以 总 
结 归 纳 其 中 对 效果 有 帮助 的 地 方 了 。 这 种 尝试 的 过 程 在 工程 项 目的 研究 中 是 不 可 避免 的 ， 
请 大 家 一 定 要 有 耐心 。 
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强化 学 习 


这 一 章 我 们 来 聊 一 聊 强化 学 习 相关 的 问题 。 

IRAIL (reinforcement learning)， 也 有 地 方 译 做 “增强 学 习 ”， 严 格 说 来 不 算 深度 学 
习 的 讨论 范畴 ， 因 为 深度 学 习 基本 是 在 研究 使 用 深度 神经 网 络 在 处 理 各 种 问题 时 候 的 经 验 
与 技巧 ， 而 强化 学 习 本 身 是 一 种 人 工 智 能 在 训练 中 得 到 策略 的 训练 过 程 。 

何 为 得 到 策略 ”在 前 面 我 们 接触 过 的 反 向 传播 网 络 、 卷 积 神经 网 络 、 循 环 神经 网 络 在 
工作 中 大 部 分 都 是 在 完成 分 类 的 问题 一 一 也 就 是 判断 一 个 样本 是 什么 类 别 标签 的 问题 ,或 
者 一 个 序列 到 另 一 序列 的 Sequence-to-Sequence 的 输入 与 输出 模型 。 这 跟 我 们 平时 看 到 的 
科幻 电影 中 强大 的 人 形 机 器 人 的 功能 好 像 不 搭界 。 不 仅 是 这 样 ， 就 连 我 们 看 到 的 一 个 功能 
单纯 到 只 能 下 围棋 的 AlphaGo 都 设 办 法 通过 这 种 方式 训练 出 来 。 是 的 ， 如 果 希 望 让 机 器 人 
(不 管 是 人 形 机 器 人 还 是 非 人 形 的 带 有 策略 指导 输出 类 型 的 机 器 人 ) 有 学 习 的 功能 ， 那 么 就 
需要 使 用 这 种 学 习 的 方式 了 。 

这 种 方式 工作 的 过 程 其 实 一 点 都 不 神秘 ， 也 非常 好 理解 。 记 得 曾经 在 跟 朋 友 吃 火锅 的 
时 候 ， 其 中 一 位 朋友 在 给 另 一 位 教 古 稳 的 妹子 讲 强化 学 习 的 过 程 时 用 了 这 样 一 个 比喻 。“ 假 
如 你 教 一 个 孩子 学 古筝 ， 啥 都 不 用 告诉 他 ， 让 他 自己 随便 去 弹 。 他 可 以 站 着 ， 躺 着 ， 趴 着 ， 
跪 着 去 弹 ; 可 以 用 手 弹 ， 可 以 用 脚 弹 ; 可 以 用 很 大 力气 弹 ， 也 可 以 用 很 小 的 力气 去 弹 …… 
随 他 的 便 。 而 你 作为 一 个 老师 要 做 的 事情 也 很 简单 ， 就 是 只 有 他 弹 得 要 领 正确 的 时 候 你 才 
给 他 一 块 糖 ， 弹 得 不 对 就 大 嘴巴 抽 他 。 然 后 让 他 自己 慢 慢 总 结 出 来 要 怎么 弹 就 好 了 ……” 

当时 听 完 这 个 解释 的 方法 我 觉得 这 位 仁兄 真是 有 才 ， 要 义 还 真是 说 得 差不多 ， 只 不 过 
这 种 学 习 方式 对 于 以 人 作为 对 象 的 方式 来 说 实在 是 没有 可 行 性 ， 首 先 不 能 打 孩 子 ， 而 且 这 
种 方式 也 特别 没 效 率 。 好 了 ， 这 个 比喻 大 家 心里 有 数 就 行 了 ,下 面 我 们 来 看 具体 实施 起 来 
是 怎么 个 细节 步骤 。 
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11.1 模型 核心 


所 有 的 强化 学 习 的 训练 场景 都 可 以 简化 地 描述 为 这 样 几 个 模型 要 素 ， 我 们 先 来 看 看 整 
个 模型 涉及 哪 几 个 重要 的 对 象 。 


State 





首先 是 这 个 主体 ， 我 们 可 以 粗略 地 理解 成 机 器 人 ， 我 们 就 是 要 训练 它 的 行为 策略 。 

第 二 个 是 环境 或 者 状态 ， 这 就 是 主体 所 处 的 当时 的 “情形 ”。 注 意 这 个 情形 在 不 同 的 场 
合 是 不 一 样 的 ， 比 如 对 于 AlphaGo 这 种 东西 来 说 ， 环 境 就 是 当时 的 围棋 棋盘 盘面 的 情况 。 
而 对 于 自动 驾驶 的 无 人 汽车 ， 这 个 环境 就 是 当时 的 路 况 (周围 车 辆 位 置 、 自 身 所 处 经 纬度 、 
天 气 情 况 )、 卫 星 地 图 、 车 速 甚至 胎 压 等 各 种 描述 当时 状况 的 数据 维度 。 

除 此 之 外 还 有 两 个 重要 的 因素 ， 分别 是 Action 和 Reward. 

Action 可 以 翻译 成 “动作 ”或 者 “行为 ”， 就 是 这 个 机 器 人 所 要 做 出 的 反应 或 者 输 
出 。 比 如 AlphaGo 的 把 棋子 下 在 什么 地 方 ， 或 者 汽车 自动 驾驶 仪 的 一 个 转向 、 油 门 或 刹车 
指令 。 

Reward 可 以 翻译 成 “反馈 ”或 者 “奖励 "， 不 过 请 注意 “奖励 ”可 不 永远 都 是 奖励 ， 
也 可 以 是 惩戒 。 “奖励 ”作为 正 值 来 说 那 就 是 奖励 ， 就 像 得 分 一 样 ， 如 果 是 负数 那 就 表示 惩 
戒 ， 或 者 罚 分 。 例 如 在 AlphaGo 的 下 定 一 个 棋子 后 ， 盘 面 状态 会 发 生 改变 ， 这 个 时 候 如 果 
盘面 的 改变 比较 有 利 ， 则 得 到 一 个 正 值 的 Reward， 有 利 较 为 明显 则 Reward 会 比较 大 ， 而 
有 利 较 小 则 Reward 会 比较 小 。 相 反 ， 如 果盘 面 变 得 对 自己 有 较 大 的 不 利 则 Reward 会 取 绝 
对 值 比较 大 的 负 值 ， 有 小 的 不 利 则 会 取 一 个 绝对 值 比较 小 的 负 值 。 

这 几 个 概念 都 还 是 比较 好 理解 的 对 吧 ? 那么 人 要 做 的 工作 就 只 剩 下 两 个 了 。 

第 一 ， 把 这 些 奖励 和 损失 定义 好 ， 让 环境 中 产生 的 奖励 和 损失 能 够 顺利 有 效 地 量化 反 
馈 给 主体 。 ， 

第 二 ， 让 主体 以 较 低 的 成 本 快速 地 不 断 尝 试 ， 以 总 结 出 在 不 同 的 State 的 情形 下 
Reward 较 大 的 工作 方式 。 

怎么 样 ， 思 路 很 简单 对 不 对 ? 那么 我 通过 什么 样 的 方法 建 模 能 够 得 到 一 个 比较 靠 谱 的 
策略 呢 ? 熟悉 统计 学 的 读者 朋友 肯定 会 很 容易 想到 一 个 最 为 简单 的 思路 一 一 是 的 ， 那 就 是 
用 类 似 隐 马 尔 可 夫 链 的 方式 来 做 训练 ， 统 计 一 下 状态 转换 的 概率 和 得 到 Reward 的 数学 期 户 
值 ， 然 后 寻找 一 条 获取 最 大 Reward 的 路 径 。 嗯 ， 是 的 ， 这 个 思路 靠 谱 。 那 我 们 就 来 看 看 这 
个 叫做 马尔 可 夫 决 策 过 程 的 方法 。 
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11.2 马尔 可 夫 决 策 过 程 


熟悉 马尔 可 夫 老 先生 解决 问题 思路 的 人 应 该 一 看 这 个 名 称 就 知道 ， 这 个 决策 的 过 程 是 
个 只 和 当前 状态 有 关 ， 和 以 前 状态 无 关 的 决策 过 程 。 





请 看 上 图 ， 马 尔 可 夫 决 策 过 程 (markov decision process, MDP) 从 思路 上 来 说 基本 上 
只 看 一 种 情形 就 可 以 了 ， 在 一 个 状态 下 (就 是 图 中 的 5,、5,、5S, )， 会 有 多 大 的 概率 选择 某 
一 种 动作 (就 是 图 中 的 a 或 a1 )， 以 及 每 一 次 状态 的 迁移 会 获得 多 大 一 个 奖励 (就 是 上 图 中 
曲 里 拐弯 的 箭头 上 面 带 着 +5 和 —1 的 那 种 )。 整 个 这 个 过 程 是 从 大 量 的 样本 学 习 中 得 到 的 ， 
用 表达 式 来 表示 这 个 模型 通常 写作 : (S, А, PC, s"), RC, 5')) 这 样 一 个 四 元 组 。 

5 表示 状态 State, 

А 表示 动作 Action, 

P(s, s") 表示 前 后 两 种 状态 s 和 s' 之 间 的 转化 概率 ， 

R(s, s") 表示 前 后 两 种 状态 s ЖП 5' 之 间 的 转化 所 获得 的 奖励 Reward. 

对 于 MDP 来 说 ， 把 这 4 个 要 素描 述 清楚 了 ， 就 算是 把 整个 模型 描述 清楚 了 。 

上 面 所 说 的 这 一 切 都 是 基于 一 系列 观测 的 统计 结果 ， 例 如 你 可 以 观测 在 象棋 博弈 中 的 
众多 的 棋局 来 得 到 这 样 一 个 统计 结果 ， 其 中 的 8 就 是 描述 棋局 盘面 的 向 量 (一 个 9x9 的 向 
量 ， 每 个 维度 表示 一 个 交叉 点 ， 每 个 维度 上 有 一 个 棋子 的 描述 信息 ), А 是 描述 某 个 棋子 动 
作 的 向 量 (例如 车 六 平 二 ， 炮 三 进 一 )，R 是 描述 这 次 状态 转化 的 得 失 (可 以 简单 用 棋子 的 
得 失 来 描述 ， 例 如 吃 掉 对 方 一 个 车 ， 得 10 分 ， 被 对 方 吃 掉 一 个 卒 得 -2 分 )。 最 后 基于 大 量 
的 观测 统计 出 来 的 结果 就 是 一 个 马尔 可 夫 决 策 过 程 的 模型 。 

如 果 把 这 个 过 程 描 述 成 一 个 类 似 查 表 过 程 的 方式 的 话 ， 可 以 把 刚刚 这 个 模型 转化 一 下 
得 到 这 样 一 个 表格 : 


ACTIONI ACTION2 ACTIONS! =] = = 
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ACTIONI ACTION2 ACTIONS | | ee 





STATE3 





左边 横 坐 标 STATE 是 各 个 状态 ， 上 边 的 ACTION 是 指 不 同 的 动作 输出 ， 中 间 交 叉 的 方 
格 中 填写 的 内 容 请 注意 还 是 一 个 表格 ， 就 像 下 面 这 样 。 





Possibility 






STATEI 







STATE2 






STATE3 


ALIN RIK, ix^ de REIL PU. gif amp SE ИШЕГЕН АЖ ЖЇН 
填 人 表格 ; 用 的 时 候 就 用 查 表 的 方式 ， 在 第 一 个 表格 中 用 当前 的 STATE 找到 对 应 的 STATE 
列 ， 在 后 面 找到 概率 大 而 且 奖 励 值 高 的 那个 状态 。 如 果 不 是 在 特殊 场景 中 进行 具体 讨论 ， 
而 是 单纯 从 刚刚 这 个 表 上 来 看 的 话 ,这 个 表 一 定 是 描述 在 某 个 STATE 下 做 了 某 个 ACTION 
之 后 获得 的 一 个 统计 结果 。 这 个 ACTION 到 底 靠 不 靠 谱 就 看 后 面 这 些 统计 出 来 的 值 是 不 是 
有 着 足够 好 的 REWARD。 例 如 这 个 表 中 ， 光 看 这 三 行 可 以 得 到 一 个 REWARD 的 期 望 值 ， 
用 0.353 x3 + 0.12 x 2 + 0.05 x7…… 来 得 到 一 个 期 望 值 ， 算 出 来 应 该 是 1.64。 

不 过 聪明 的 读者 朋友 一 定 是 可 以 推断 出 来 的 ， 既 然 是 一 个 概率 问题 ， 那 么 Possibility 
的 这 一 列 相 加 之 和 一 定 是 1 或 100% 一 一 是 的 ， 这 个 结论 是 正确 的 。 那 么 最 后 在 第 一 个 表 
格 里 去 做 决策 的 时 候 就 好 办 了 ， 就 是 去 比较 在 当前 的 STATE 下 ， 用 哪个 ACTION 会 得 
到 更 为 “ 靠 谱 ” 的 结果 一 一 也 就 是 哪个 ACTION 下 面 的 那个 表格 (第 二 个 表格 ) 里 出 现 
比较 大 的 REWARD 值 。 这 个 思路 应 该 还 是 比较 好 获得 的 ， 而 且 定 性 去 看 的 话 肯定 是 大 概 
率 得 到 大 REWARD 值 的 那个 ACTION 会 更 有 了 吸引 力 一 些 。 这 就 是 整个 隐 马 尔 可 夫 决 策 
过 程 的 叙述 了 ， 也 并 不 复杂 。 从 这 个 过 程 中 也 可 以 看 出 来 ， 如 果 第 2 个 表格 能 够 退化 成 
为 一 个 只 有 一 行 的 数据 那 是 最 好 ， 也 就 是 说 一 个 STATE 经 过 某 一 个 ACTION 只 能 变化 成 
为 某 一 个 STATE， 而 不 是 以 一 定 的 概率 转化 成 众多 STATE 中 的 一 个 ， 那 么 情况 就 会 简化 
得 多 。 

除了 用 在 刚 在 举 的 棋局 的 例子 上 之 外 ， 其 他 的 各 种 决策 只 要 能 够 把 STATE 向 量化 ， 把 
ACTION 向 量化 ， 把 REWARD 数值 化 ， 就 都 可 以 使 用 马尔 可 夫 决 策 过 程 来 学 习 ， 并 得 到 一 
个 从 统计 角度 来 看 最 为 有 吸引 力 的 决策 表 。 最 终 让 机 器 人 用 查 表 的 办 法 找到 当前 状态 下 做 
什么 动作 最 靠 谱 来 决定 下 一 步 的 举动 ， 这 个 思路 是 不 是 顺 其 自然 呢 ? 
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11.21 用 游戏 开刀 


为 了 让 这 个 训练 过 程 有 点 具象 性 ， 我 们 还 是 要 找 一 个 假想 敌 来 做 说 明 。 

我 想 ， 游 戏 可 能 是 一 种 再 合适 不 过 的 场景 了 ， 不 管 是 什么 类 型 的 游戏 理论 上 都 是 可 以 
的 。 由 于 整个 过 程 中 遍布 着 试 错 的 基因 ， 所 以 如 果 试 错 给 我 们 带 来 的 成 本 太 高 那 将 是 一 场 
非常 不 划算 的 实验 ， 但 是 游戏 中 基本 不 存在 这 个 问题 ， 只 要 不 是 付费 的 。 此 外 ， 游 戏 中 带 
有 比较 明显 的 对 抗 、 策 略 、 博 弈 的 特点 ， 适 合作 为 强化 学 习 的 环境 ， 并 在 最 终 得 出 一 个 相 
对 可 行 的 策略 

对 于 我 们 八 零 后 的 准 大 叔 们 来 说 ， 任 天 堂 FC 游戏 应 该 是 最 亲切 不 过 的 了 。 由 于 FC 游 
RHEE F 20 个 世纪 80 年 代 ， 而 且 几 乎 是 中 国 当 时 家 庭 电子 游戏 中 唯一 的 候选 品 ， 几 乎 成 
了 那 一 代 孩 子 们 家 里 的 标 配 。 这 些 游 戏 现在 看 来 ， 无 论 是 操控 感 、 画 质 、 复 杂 性 都 远 不 如 
各 种 二 线 的 手 游 。 但 也 正 因为 如 此 ， 针 对 它 的 学 习 可 能 才 更 具备 一 些 可 行 性 。 

在 FC 游戏 上 ， 大 体 分 有 “ 纵 版 "、“ 横 版 "、“ 固 定 "、“ 无 限制 ”等 版 式 类 型 的 游戏 。 

版 ”就 是 玩家 操纵 的 人 物 的 移 屏 操作 从 下 往 上 ， ЖЕЙ ЫЕ. ERG ONERE 
“ЖЖК” 


забт" Й d 


| 








“ 横 版 ”就 是 玩家 操纵 的 人 物 的 移 屏 操作 从 左 往 右 ， 或 者 从 右 往 左 走 ， 代 表 性 的 作品 有 
“ 魂 斗 罗 ”等 。 而 且 魂 斗 罗 这 种 游戏 有 的 关卡 是 “ 纵 版 ”有 的 则 是 “模版 "， 不 过 它们 都 是 
需 要 玩家 自 ae 纵使 得 游戏 主 Ж” Е 移 屏 
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“固定 ”版 的 游戏 也 比较 多 ， 就 是 在 一 个 屏幕 中 展示 了 场景 或 者 关卡 的 全 部 ， 不 需要 发 
生 移 屏 才能 使 游戏 情节 向 前 发 展 的 ， 例 如 “90 坦克 ”这 一 类 的 。 





“其 他 ”的 就 是 那些 会 移 屏 才能 发 生 游戏 情节 转移 ， 但 是 方向 性 不 明确 的 ， 这 种 游戏 里 
面 寻 路 的 动作 成 分 会 比较 多 ， 比 如 像 “ 勇 者 斗 恶 龙 ”和 “霸王 的 大 陆 ” 这 类 游戏 ， 目 的 和 
策略 都 过 于 复杂 。 对 于 人 来 说 可 能 没什么 ， 但 是 对 于 一 个 只 认识 向 量 的 计算 机 来 说 ， 处 理 
这 种 维度 的 关键 一 一 评价 一 个 行为 在 整个 游戏 中 的 收益 显得 极为 困难 。 
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如 果真 的 要 用 游戏 来 做 训练 对 象 的 话 ， 那 么 请 优先 选择 “固定 ”版 的 游戏 ， 而 且 选 择 
评价 相对 简单 的 游戏 。 因 为 这 些 游戏 的 状态 变化 维度 相对 比较 少 ， 比 起 其 他 复杂 游戏 来 说 
训练 算法 理论 上 讲 更 容易 收敛 。 

我 们 要 训练 的 机 器 人 ， 不 论 你 怎么 设计 它 ， 它 只 是 一 个 地 地 道道 的 白痴 。 它 在 整个 过 
程 中 根本 不 知道 自己 在 玩 什么 ， 更 别 说 玩 游 戏 玩 得 开心 不 开心 了 ， 它 能 理解 的 只 是 在 一 系 
列 和 一 个 环境 互动 的 过 程 中 输入 向 量 的 变化 ， 以 及 自己 得 到 的 Reward 变量 值 变 大 变 小 而 
已 。 它 自己 只 能 通过 一 系列 的 调整 去 归纳 什么 情况 下 做 什么 动作 会 得 到 比较 大 的 Reward 
值 ， 仅 此 而 已 。 也 难怪 我 一 个 高 中 的 学 霸 朋 友 在 读数 学 专业 博士 毕业 后 跟 我 说 “游戏 一 点 
也 没意思 ， 玩 来 玩 去 最 后 大 家 就 是 比 一 个 数 ……” 当 时 我 听 完 是 满 脸 黑 线 ， 原 来 在 数学 人 
物 的 世界 里 ,万 物 已 经 被 简化 到 模型 的 最 本 质 形 态 了 。 我 当时 如 果 不 是 担心 他 会 跟 我 绝 交 
的 话 ,一 定 会 问 吃 东西 的 酸甜苦辣 应 该 也 是 无 所 谓 ， 反 正 只 要 有 足够 的 氨基 酸 在 被 水 解 成 
多 肽 ,然后 在 肝脏 被 转氨酶 转化 成 别 的 氨基 酸 ， 有 足够 的 多 糖水 解 成 单 糖 再 被 线粒体 氧化 ， 
人 就 基本 能 够 保证 不 死 …… 这 可 能 是 人 和 机 器 的 最 大 差别 吧 ， 人 总 是 会 有 一 些 高 于 纯 物 质 
层面 、 高 于 纯 理 性 层面 的 东西 存在 。 好 吧 ， 让 学 霸 们 去 创造 世界 ， 我 们 来 “ 比 数 " 。 


11.2.2 ”准备 工作 


理论 上 讲 ， 如 果 你 真 的 决定 要 训练 一 个 适用 于 FC 游戏 的 某 一 款 机 器 人 一 一 比如 某 游 戏 
一 命 通关 机 器 人 的 话 ， 你 先 要 下 载 一 个 FC 模拟 器 ， 并 在 FC 模拟 器 之 外 完成 一 系列 的 外 挂 
工作 。 顺 便 提 一 句 ， 你 看 着 “ 沙 罗 曼 蛇 ”这 种 游戏 好 像 是 “ 横 版 ”和 “ 纵 版 ”的 混搭 游戏 ， 
不 过 其 实 你 算 它 为 “固定 ”版 可 能 更 合适 ， 因 为 屏幕 是 自动 移动 并 推动 情节 发 展 的 ， 你 所 
操控 的 小 飞机 只 需要 “ 原 地 躲 子 弹 ” 见 招 拆 招 就 好 了 。 

准备 工具 1: FC 模拟 器 

这 个 东西 要 装 在 PC 上 , 不管 你 是 在 Ubuntu 系统 上 玩 还 是 在 Windows 系统 上 玩 ， 应 该 
都 有 相应 的 FC 模拟 器 版 本 。 下 载 模拟 器 并 下 载 相应 的 ROM 软件 (游戏 ) 就 可 以 开始 玩 了 。 
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状态 向 量 


主体 





准备 工具 2: State 生成 器 

作为 要 训练 的 主体 来 说 ，State 是 一 个 描述 环境 的 向 量 ， 既 然 是 向 量 就 需要 做 出 某 种 
转化 来 得 到 。 在 这 样 一 个 场景 中 ， 我 们 当然 是 希望 以 最 原始 的 画面 屏幕 作为 State 的 描述 
Ji xx. 

准备 工具 3: 模拟 手柄 

你 可 能 还 需要 一 个 模拟 的 手柄 来 记录 输入 的 Action。 这 个 手柄 可 以 是 购买 的 一 个 USB 
的 手柄 ， 也 可 以 是 键盘 模拟 的 。 但 不 论 是 其 中 的 哪 一 种 ， 都 要 能 够 保证 通过 一 个 适配器 工 
具 把 这 种 按键 的 记录 捕捉 到 ， 并 传递 给 主体 。 而 且 机 器 人 自己 玩 丰 的 过 程 中 ， 需 要 极其 
频繁 地 与 环境 交互 ， 这 时 不 得 不 使 用 模拟 手柄 了 ， 例 如 用 Python 对 模拟 器 发 出 一 个 按键 
动作 。 

准备 工具 4: 评价 器 

评价 器 的 功能 很 单纯 ， 就 是 根据 当时 的 State 所 作出 的 一 种 评分 函数 。 将 当时 捕捉 到 的 
State 通过 一 定 的 特征 提取 ， 无 论 是 画面 ， 还 是 声音 ， 或 者 是 从 游戏 某 个 接口 获取 到 的 具体 
的 一 个 分 数 或 者 表示 玩家 血 量 的 HP 值 等 。 总 之 最 后 当 环 境 当 时 的 状态 传输 到 评价 器 的 时 
候 ， 评 价 器 能 够 根据 这 个 状态 给 出 一 个 比较 合适 的 评价 值 ， 或 正 或 负 ， 来 评价 当前 这 个 状 
态 对 玩家 的 不 利 或 者 有 利 的 量化 程度 。 


11.2.3 ”训练 过 程 

当 这 一 切 都 完成 后 就 可 以 考虑 开始 训练 了 ， 一 旦 开始 训练 ， 整 个 系统 的 各 个 部 分 就 开 
始 这 样 运作 起 来 。 

在 主体 中 有 刚刚 我 们 设计 的 那个 表 。 
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ACTIONI ACTION2 ACTION3 ACTION4 ACTIONS ACTION6 | се 







STATE1 
STATE2 
STATE3 
STATE4 







它 是 用 来 表示 这 样 一 个 含义 O(state x action) 一 value， 也 就 是 一 个 评价 表 ， 最 终 将 在 
一 个 状态 State 下 通过 查 表 的 办 法 找到 当前 最 有 利 的 回应 动作 Action. 

然后 当 游 戏 开 始 后 ， 我 们 就 可 以 开始 填充 这 个 表 了 。 

以 每 秒 钟 捕捉 5 次 屏幕 并 对 应 做 出 5 次 反应 ， 一 次 0.2 秒 的 周期 去 做 反应 。 那 么 在 一 个 
时 刻 主 体会 收 到 一 个 State 和 一 个 Action (即便 没 输入 也 应 该 算 一 种 Action， 或 者 成 为 空 操 
作 Action)， 同 时 应 该 还 会 得 到 一 个 Reward， 或 者 从 时 间 连 贯 性 上 来 看 ， 应 该 是 3 个 序列 。 


Иж 





注意 一 点 ， 当 时 输入 的 State, Action, 和 Reward, 可 不 是 “一 起 ”的 。 这 个 Reward, 其 
SC State, , 和 Action, 及 之 前 的 一 系列 相互 作用 产生 的 回报 值 ， 所 以 记录 的 时 候 其 对 应 关 
系 应 该 是 如 上 图 所 示 的 逻辑 。 | 

这 里 的 Action 理论 上 讲 应 该 都 是 由 机 器 人 自己 去 玩 比较 好 。 如 果 是 人 玩 一 些 游戏 ， 把 
人 玩 的 过 程 加 以 记录 ， 让 机 器 来 学 习 这 个 过 程 也 未 尝 不 可 ， 当 然 玩 得 好 的 一 些 人 会 帮助 机 
器 人 在 学 习 中 快速 收敛 ,但 是 这 多 少 有 点 录像 或 者 模仿 的 意味 ， 自 我 尝试 和 修正 的 逻辑 比 
较 少 。 而 如 果 由 机 器 人 从 头 开始 玩 的 话 ， 一 开始 就 面临 “ 冷 启动 ”的 问题 ， 也 就 是 一 开始 
大 脑 一 片 空白 的 机 器 人 根本 不 知道 应 该 怎么 做 ， 那 就 ……: 没 错 ， 你 说 对 了 ， 只 能 频 试 。 可 
以 用 这 种 模型 来 进行 尝试 

Action, = P, *Random() + (1—P,)*Q(state X action) 

一 个 Action 的 输出 将 有 一 定 概率 是 由 随机 函数 生成 的 ， 还 有 一 定 的 概率 是 由 已 经 学 习 
到 的 Q(state x action) 函数 ， 也 就 是 那个 矩阵 查找 得 出 的 。 这 个 概率 可 以 由 我 们 人 来 控制 ， 
总 体 原则 就 是 最 开始 O(state x action) 函数 里 面 还 什么 都 没有 的 时 候 让 随机 函数 多 产生 一 些 
比例 的 Action， 而 当 O(state x action) 逐渐 有 一 些 积累 以 后 就 可 以 考虑 由 Q(state x action) 
来 生成 较 大 比例 的 Action 一 一 这 算是 经 验 与 教训 的 结晶 。 如 果 这 个 函数 已 经 总 结 出 很 多 
State 情况 下 较 大 的 Reward 值 ， 那 么 就 说 明 这 个 算法 已 经 使 机 器 人 足够 进化 ， 多 采用 这 些 
已 经 进化 的 内 容 会 让 它 生存 得 更 长 久 。 
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最 后 是 这 个 Reward 怎么 办 的 问题 。Reward 就 是 一 种 奖励 或 者 回报 ， 在 沙 罗曼 蛇 这 种 
游戏 里 面 ， 什 么 是 奖励 或 回报 呢 ? 或 者 说 什么 会 对 机 器 人 更 有 利 呢 ? 简单 说 ， 只 有 一 个 因 
素 一 一 生存 ， 能 活 到 最 后 就 算 通 关 胜 利 。 为 了 达成 这 样 一 个 因素 ， 需 要 哪些 因素 支持 呢 ? 
中 不 被 击 中 ，@ 四 歼灭 敌人 ， 图 火力 增强 。 这 种 游戏 好 就 好 在 逻辑 相对 比较 简单 ， 要 么 打 怪 ， 
要 么 被 怪 打 。 所 以 呢 ， 评 价 器 的 功能 只 要 能 根据 游戏 界面 上 的 一 些 东 西 判断 出 当前 的 状态 ， 
并 反馈 一 个 分 数 ， 那 就 很 好 了 。 有 这 样 的 东西 吗 ? 有 的 。 


1TPO0000 150 


1P02 





在 屏幕 的 左下 角 已 经 有 一 个 类 似 仪 表盘 一 样 的 反馈 示 数 了 ， 左 下 的 02 表示 当前 玩家 的 
生命 数 ， 死 亡 就 减 1， 加 命 就 加 1 ; 右 下 的 这 个 条 表示 火力 ; 上面 的 数字 是 得 分 ， 基 本 可 以 
反映 歼灭 敌人 的 收益 。 其 他 的 沙 罗曼 蛇 版 本 可 能 这 些 值 是 以 其 他 形式 表示 的 ， 没 关系 ,不 
管 什么 游戏 ， 不 管用 什么 方式 表示 ， 只 要 你 能 够 用 类 似 截 屏 、OCR 识别 9 、 声 音 特征 识别 等 
方式 把 当前 的 State 映射 成 为 一 个 Reward 值 就 可 以 了 ， 难 度 视 具体 游戏 的 情况 而 异 。 

假设 这 个 过 程 真 的 能 够 持续 的 话 ， 那 基本 就 是 在 穷 举 整 个 所 有 的 游戏 中 的 可 能 性 了 。 
最 后 我 们 会 得 到 一 个 非常 长 的 STATE x ACTION 列表 ， 表格 里 的 每 个 值 就 是 一 个 回报 值 。 
等 机 器 人 再 来 玩 这 个 游戏 的 时 候 ， 就 可 以 根据 当时 的 State 查找 所 有 的 Action 中 哪个 获 利 最 
高 ， 然 后 直接 采用 就 可 以 了 。 嗯 ， 不 过 看 上 去 好 像 有 点 问题 …… 


11.2.4 ”问题 


1. 空间 存储 问题 

State 就 是 游戏 输出 画面 的 完整 信息 ， 例 如 笔者 使 用 的 ЕС 模拟 器 默认 分 辩 率 就 是 256 x 
225， 也 就 是 57 600 TRK, M RGB 表示 则 每 个 像素 需要 3Byte 空间 ， 也 就 是 172 800 F 
节 ， 也 就 是 168.75KB 来 表示 一 个 State。 





© Optical Character Recognition， 光 学 字符 识别 技术 ， 将 图 片 、 照 片上 的 文字 内 容 ， 直 接 转换 为 可 编辑 文本 的 
软件 或 算法 。 
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Action 对 于 FC 模拟 器 来 说 也 是 比较 有 限 的 ， 大 致 上 就 是 “上 ”、“ 下 ”"、“ 左 ”"、“ 右 ”"、' 左 
Е". ЕЕ". Е". БЕ". 50)” ОВЕ 9 ХОК, ША “А”, “В”. “АВ”. 
“ 空 发 射 "4 个 状态 。 所 以 所 有 的 可 能 性 相 加 就 是 36 个 状态 ， 也 就 是 它们 的 乘积 。 换 句 话说 ， 
上 面 ACTION 一 共 也 就 是 36 列 。 千 万 别 忘 了 ， 方 向 键 和 AB 键 是 可 以 一 起 按 下 去 的 。 

左边 的 STATE 大 概 有 多 少 行 呢 ， 以 每 秒 钟 捕 提 5 次 屏幕 并 对 应 做 出 5 次 反应 的 情况 
F, 一 次 0.2 秒 的 周期 计算 ， 整个“ 沙 罗曼 蛇 ” 通 关 需 要 27 分 钟 ，27 x 60 x 5=8100， 从 头 
到 尾 演 练 一 遍 都 需要 8100 个 STATE， 即 1 366 875KB， 大 约 1.3GB 的 样子 ， 这 仅仅 是 前 面 
的 状态 描述 所 需要 占有 的 空间 大 小 。 还 要 算 一 下 36 列 乘 以 一 个 1 字 节 的 大 小 ， 再 乘 以 8100 
个 State, KH 284.7KB。 你 可 能 觉得 这 个 数字 并 不 大 ， 反 正 对 于 一 个 2TB 大 小 的 主流 硬盘 
来 说 算是 九 牛 一 毛 。 可 是 你 别 忘 了 一 点 哦 ， 这 些 STATE 都 是 以 像素 为 单位 做 记录 的 ， 也 就 
是 说 两 个 状态 中 哪怕 就 是 一 个 像素 不 同 都 不 能 算 作 同 一 个 STATE…… 这 么 算 起 来 可 就 太 可 
怕 了 ， 在 不 同 次 玩 沙 罗曼 蛇 的 时 候 ， 同 一 次 序 的 帧 (0.2 秒 ) 都 远 远 不 止 一 种 可 能 性 ， 这 个 
数量 就 很 难 估 计 了 ， 恺 怕 儿 万 种 都 不 止 。 哪 怕 就 是 1 万 种 ， 都 会 使 得 STATE 的 存储 空间 陡 
增 至 12.7TB， 这 连 保存 都 是 问题 ， 就 别提 什么 训练 了 。 


2. 查找 问题 

按照 刚刚 的 假设 ， 这 么 大 的 STATE 的 描述 向 量 ( 172 800 字 节 一 个 ) 当然 可 以 考虑 先 做 
一 个 有 损 压 缩 ， 只 要 不 是 用 哈 希 的 方法 ， 做 了 有 损 压 缩 对 于 查找 就 是 有 利 的 。 

哈 希 肯定 是 万 万 不 可 取 的 ， 虽 然 看 上 去 用 MD5 和 SHA-1 这 类 算法 可 以 把 这 么 长 的 一 
个 字符 串 压 缩 到 只 有 几 十 个 字 节 。 但 是 一 旦 用 了 这 样 的 方法 后 ， 原 本 非常 接近 的 两 种 State 
就 会 出 现 两 个 完全 不 一 样 的 哈 希 值 。 


查询 结果 : 
md5(1234567890,32) = e807f1fcf82d132f9bb018ca6738319f 
md5(1234567890,16) = f82d132f9bb018ca 


查询 结果 : 
md5(1234567891,32) = 0f7e44a922df352c05c5f73cb40ba115 
md5(1234567891,16) = 22df352c05c5f73c 





看 两 个 数字 “1234567890” 和 “1234567891”， 虽 然 我 们 知道 这 两 个 数 在 数值 上 的 差距 
非常 小 , (AGE MDS 后 不 论 是 16 字 节 的 还 是 32 字 节 的 ， 都 完全 看 不 出 两 者 有 什么 关系 。 
这 样 在 State 的 泛 化 性 会 非常 不 好 ， 本 来 非常 相近 的 State 应 该 可 以 采取 类 似 的 Action 就 可 
以 了 ,但 是 现在 却 是 以 两 个 完全 不 同 的 State 出 现 ， 完 全 没 办 法 互相 “借鉴 "， 这 本 身 就 带 
来 了 相当 多 的 “State TR”. 

当然 这 么 大 的 数据 集 进 行 查找 也 同样 需要 使 用 诸如 索引 一 类 的 东西 来 快速 找到 State 所 
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在 的 行 ， 可 是 普通 的 针对 字符 串 和 数字 的 B-Tree 索引 、Hash 索引 以 及 针对 枚 举 的 Bitmap 
索引 都 不 能 用 上 。 顺 序 查 找 理论 上 可 行 , 但 是 时 间 上 实际 上 是 不 允许 的 。 所 以 还 是 要 开发 
一 种 基于 向 量 相似 度 的 索引 结构 才 行 ， 如 果 开 发 不 出 来 也 是 个 问题 。 


3. 短视 问题 

这 种 问题 在 这 种 方式 的 一 开始 几乎 就 商定 了 不 可 改变 的 基因 。 一 个 State 当时 所 作出 的 
Action 很 可 能 就 是 一 种 应 激 反应 式 的 Action， 虽 然 在 这 一 瞬间 感觉 是 不 错 ， 但 是 时 间 稍 微 
一 长 就 会 发 现 这 一 步 Action 可 能 会 导致 下 面 更 不 利 的 局 面 。 而 这 个 问题 在 刚才 我 们 提供 的 
这 种 模型 中 显然 并 没有 解决 ， 所 以 这 种 模型 只 适合 那 种 盘面 变化 比较 简单 ， 前 后 逻辑 关联 
相对 较 弱 的 情况 。 

那 是 不 是 刚才 我 们 模型 整体 都 有 问题 呢 ? 

其 实 也 不 是 ， 这 个 模型 是 有 一 些 问 题 ， 但 是 模型 考虑 的 核心 元 素 没有 错 ， 问 题 在 于 如 
何 总 结 和 归纳 一 个 空间 占用 小 、 查 找 迅 速 、 眼 光 长 远 的 算法 呢 ? 我 们 一 个 一 个 来 解决 ， 先 
解决 其 中 最 为 关键 性 的 问题 一 一 短视 问题 ， 因 为 除了 这 个 问题 以 外 ， 其 他 几乎 都 是 工程 性 
问题 而 非 探 索性 数据 研究 问题 。 看 看 一 种 叫做 Q-Learning 算法 的 东西 会 为 我 们 带 来 什么 。 


11.2.5 Q-Learning 算法 


Q-Learning 算法 的 思路 很 简单 ， 概 括 起 来 也 很 简洁 ， 就 看 这 样 一 个 表达 式 即 可 。 
О(5„ а) < Q(s, а) + a X [ru + уМАХО(в„\, а„,)— Q(s,, a;)] 

听 听 白话 解释 一 下 思路 就 好 了 。 

首先 我 们 还 是 像 原来 一 样 ， 得 到 了 在 时 间 序 列 上 的 State Action, 和 Reward, 三 个 序列 ， 
等 接收 完毕 后 把 它们 按时 间 顺 序 排 好 。 然 后 从 头 到 尾 一 个 一 个 按照 这 个 逻辑 去 处 理 。 在 一 
个 时 刻 *， 看 看 这 一 刻 输 入 的 % 和 a,， 如 果 此 时 s, ЯП a, 没有 对 应 的 Reward fA (也 就 是 说 第 
一 次 出 现 ) 那 就 直接 把 这 个 s, 和 а, HARP. 

如 果 下 面 你 按部就班 地 按照 统计 的 方法 去 做 ， 那 么 就 是 前 面 的 马尔 科 夫 决策 过 程 。 不 
过 下 面 步骤 的 不 同 是 关键 ， 请 注意 。 

如 果 当 你 发 现在 s,, 的 情形 下 ，c 所 有 的 可 能 性 中 有 一 个 比较 大 的 值 ， 即 在 s,,, 的 情 
况 下 找到 那个 最 大 的 Reward 值 并 乘 以 一 个 在 0 和 1 之 间 的 系数 >”， 用 这 个 值 加 上 和 a, 这 
一 步 本 应 得 到 的 Reward 值 ra 同时 减 去 前 一 步 的 Q(s,, а) 值 来 更 新 Q(s,, a,)。 这 个 逻辑 其 实 
就 是 为 了 避免 短视 现象 的 发 生 。 
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当先 代 计 算 的 时 候 ， 后 面 一 个 State(s, ) 下 ， 一 个 有 着 更 多 回报 Reward 的 Action(a,,, ) 
会 把 它 的 回报 值 Reward 向 前 传 ， 传 给 前 一 个 State ( s,)， 并 作为 由 这 个 State (s) 下 通过 该 
Action (a,) 转移 到 s,., 的 这 个 行为 的 回报 值 的 一 部 分 。 

请 注意 ， 由 于 你 是 在 大 量 的 游戏 局 中 获得 的 State 和 Action 的 序列 ， 并 把 它们 做 以 记 
录 ， 所 以 不 太 可 能 形成 一 个 像 上 图 那样 的 独立 的 链条 。 而 你 发 现 ， 哪 怕 从 最 开始 在 一 个 相 
同 State 的 情况 下 ， 都 会 由 于 Action 转化 到 不 同 的 State 上 去 ， 而 每 个 新 的 State 具有 同样 
的 特性 一 一 它 也 能 由 于 不 同 的 Action 转化 到 不 同 的 State 上 去 。 
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所 以 整个 模型 就 好 像 是 这 样 一 个 棵 树 ， 一 棵 极 宽 极 深 的 树 ， 学 习 象棋 和 围棋 的 模型 在 
这 点 上 尤为 明显 。 一 个 State 就 是 这 样 一 个 树 上 的 节点 ， 当 做 了 一 个 Action 后 ， 状 态 就 转移 
了 ， 就 等 于 从 上 向 下 开始 进入 这 棵 树 ， 椭 圆 图 中 的 数字 代表 Reward。 当 我 得 到 这 样 一 棵 树 
的 时 候 ， 我 当然 是 期 望 看 到 在 这 个 Action 下 面 的 那些 状态 中 ， 哪 个 回报 最 大 我 就 选择 哪个 
Action 一 一 这 个 判断 逻辑 非常 的 自然 。 但 是 由 于 一 个 转移 样本 而 做 出 的 Reward 值 其 实 描述 
非常 片面 ， 简 单 说 就 是 ， 你 在 玩 沙 罗曼 蛇 的 过 程 中 这 一 步 为 了 吃 个 枪 而 导致 下 一 步 撞 死 的 
话 ， 这 个 枪 的 意义 就 不 存在 了 一 一 例如 左边 这 两 个 分 支 就 是 类 似 的 情形 ， 最 后 -100 代表 一 
个 严重 的 惩戒 。 所 以 下 一 步 产生 的 奖励 值 或 者 惩罚 值 应 该 顺 着 这 棵 树 向 上 回溯 往 根部 靠拢 ， 
因为 我 们 要 让 整个 一 条 “ Action 链 ” 看 上 去 更 靠 谱 的 话 ， 那 就 是 寻找 靠近 根部 的 点 更 靠 谱 
的 情况 ， 而 为 了 修正 这 个 评价 才 引 入 的 这 样 一 个 机 制 。 不 然 用 类 似 贪 心 法 的 方式 去 做 的 话 ， 
会 走 State,, Action,, State,, Action, 这 样 一 个 路 径 ， 而 这 样 似乎 不 是 收益 最 好 的 途径 ,我 
们 用 肉眼 看 都 知道 最 右 侧 的 两 条 路 径 比 它 要 强 。 注 意 ， 这 里 的 State, 或 States, 这 类 不 见得 
是 第 3 个 或 者 第 26 个 出 现 的 状态 ， 这 只 是 代表 一 个 State 的 标号 值 。 

О(5„ а) < Q(s, а) + aX [ru + уМАХО(з„л, a.) - Q(s,, a)] 
后 面 展开 就 可 以 写作 : 
Q(s, а) = (1-a)Q(s, а) + a X [ron + уМАХО(5,, anmi)] 

比较 明显 地 可 以 看 出 来 ,a 这 个 系数 代表 了 对 远 期 收益 的 重视 程度 ， 如 果 取 得 小 一 

些 ， 相 当 于 比较 注重 当前 的 收益 值 。 取 0 那么 就 会 仅仅 看 到 从 一 个 转移 中 获得 的 Reward, 
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而 完全 忽视 远 期 传播 过 来 的 Reward ; 取 1 则 完全 没有 重视 当前 已 经 获得 的 收益 效果 ， 而 
完全 采纳 了 后 面 nr + YMAXQO(sm, ал) HAR, y RRX W Reward 的 重视 程度 ， 理 论 
上 说 ”大 一 些 会 使 得 复杂 的 局 势 演化 中 远 期 Reward 向 树 根 部 集中 的 趋势 会 明显 。 后 面 的 
УМАХОҚ(5 1, а) 的 含义 就 是 找到 这 个 State 下 可 能 取得 的 最 大 的 Reward 值 ， 比 如 State, 下 
面 虽 然 两 个 状态 都 得 到 了 非常 严重 的 惩戒 (-100 )， 但 是 一 息 尚 存 啊 一 一 右边 还 有 个 1， 也 
就 是 说 ， 转 化 到 State, 这 个 状态 产生 的 Reward 其 实 是 可 以 采纳 Action, 带 来 的 1 的。 收益 
看 最 大 的 那 一 项 ， 而 不 是 最 小 的 ， 因 为 在 众多 的 选择 中 还 有 机 会 不 选 那个 最 小 的 ， 能 有 更 
好 的 收益 没有 理由 去 选 那个 小 的 收益 项 ， 不 是 吗 ? 
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注意 这 里 有 个 现象 ， 如 果 在 这 个 过 程 中 ， 即 便 我 无 法 获得 实时 性 的 Reward 一 一 也 就 是 
如 果 没 办 法 做 到 每 次 做 一 个 Action 就 获得 一 个 Reward， 在 这 种 情况 下 ， 在 最 终结 束 游戏 
的 时 候 ， 只 要 把 一 个 较 大 的 正 值 Reward 放 在 最 后 一 个 状态 作为 Reward 时 ， 理 论 上 讲 整 个 
树 也 能 够 通过 迭代 一 步 一 步 把 这 个 Action 链 学 习 出 来 。 反 正 就 是 通过 一 轮 一 轮 的 学 习 把 这 
个 Reward 值 向 上 传递 就 可 以 了 ， 那 当然 能 够 找到 这 条 最 合适 的 路 径 。 例 如 上 图 也 能 够 通过 
Q-Learning 算法 找到 

State, — Action, — State, — Action, — State, — Action, — State, 

这 样 一 条 路 径 的 ， 回 湖 会 把 Reward 值 向 上 传递 ， 使 得 在 前 面 碰 到 的 State 在 Q-Learning Ж. 
法 的 学 习 下 会 让 那些 最 终 只 能 引导 到 获得 较 大 回报 路 径 的 State 看 上 去 更 为 “ 靠 谱 ”一 些 ， 
而 最 终 引 导 获 得 较 大 惩戒 的 State 看 上 去 更 为 “不 靠 谱 ”一 些 ， 通 过 这 样 的 比较 可 以 让 机 器 
人 按照 更 靠近 树 的 根部 的 一 些 State 就 已 经 能 够 看 出 来 哪 条 路 径 在 远 期 更 容易 获得 较 大 的 
Reward。 这 个 Reward 在 这 里 我 示意 性 地 给 了 一 个 1000， 但 是 不 是 说 必须 要 给 一 个 这 么 县 
殊 的 值 才 能 训练 出 来 ， 其 他 的 中 间 过 程 已 经 都 给 了 0 了， 其实 这 个 地 方 给 一 个 1 都 可 以 训 
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练 得 到 结果 ， 因 为 哪怕 Reward 就 差 零点 几 也 是 可 以 在 MAXa ал) 这 个 部 分 比 出 大 小 并 
进行 传递 的 。 

回 看 整个 训练 过 程 ， 你 会 发 现 套路 也 非常 清晰 。 在 某 一 步 获得 的 Reward 比较 大 ， 那 么 
就 推断 它 的 前 一 步 的 那个 State 和 Action 比较 靠 谱 ， 从 而 提高 对 前 一 步 State 的 Reward 评 
价 。 在 大 量 的 样本 训练 下 ， 那 些 经 常 反复 出 现 的 有 着 高 的 Reward 的 状态 会 被 大 量 验证 和 强 
化 ， 从 而 学 出 一 些 靠 谱 的 路 径 来 。 这 些 路 径 由 一 系列 的 State 和 Action 构成 ， 形 成 一 套 复 杂 
的 决策 程序 。 i 

整个 这 个 部 分 讨论 的 内 容 都 属于 动态 规划 (dynamic programming) 的 范畴 ， 这 种 树 也 
有 个 学 名 ， 叫 做 蒙特 卡 洛 树 (monte carlo tree)。 大 家 感 兴 趣 的 话 可 以 去 找 一 下 相关 的 教科 
书 ， 推 导 比 这 个 要 严谨 ， 也 更 为 复杂 一 些 。 


11.3 ”深度 学 习 中 的 Q-Learning—DQN 


使 用 TensorFlow 是 不 是 也 能 够 帮助 我 们 完成 类 似 的 Q-Learning 算法 呢 ? 可 以 训练 吗 ? 
答案 是 肯定 的 。 

ром 就 是 一 种 这 样 的 网 络 ， 全 称 为 Deep Q-Network， 使 用 一 个 深度 神经 网 络 来 拟 
合 一 个 算法 。 以 前 我 们 见 到 的 例子 已 经 非常 多 了 ， 定 义 一 个 网 络 结构 ， 定 义 一 个 损失 函 
数 来 描述 误差 ， 最 后 迭代 的 结果 就 是 令 整 个 网 络 的 损失 函数 逐步 减少 到 足够 小 。 那 么 用 
TensorFlow 也 应 该 是 同样 的 套路 ， 按 照 前 面 我 们 接触 过 的 各 种 各 样 奇 奇怪 怪 的 神经 网 络 
所 总 结 出 来 的 经 验 来 看 ， 应 该 是 一 个 STATE 的 向 量 作为 网 络 的 输入 ， 而 最 终 输出 的 结果 
是 一 个 ACTION 的 向 量 就 可 以 了 。 这 种 情况 下 ， 每 次 用 STATE 通过 网 络 从 而 获得 一 个 
ACTION 的 输出 ， 用 网 络 中 复杂 的 权重 关系 来 拟 合 这 个 复杂 的 决策 选择 过 程 。 可 是 这 里 有 
个 奇怪 的 地 方 ， 就 是 好 像 我 们 一 下 子 想不到 应 该 用 什么 东西 来 充当 损失 函数 ， 怎 么 来 描述 
一 个 所 谓 的 “ 残 差 ”而 让 “ 残 差 ”经 过 凸 优化 向 着 减 小 的 方向 去 运动 呢 ? 没关系 ， 我 们 还 
是 可 以 踩 在 先贤 们 的 肩膀 上 来 看 世界 。 

根据 著名 数学 家 理 查 ， 贝尔 最 9 的 贝尔 曼 方程 ， 可 以 有 这 样 一 个 推导 : 


Q GA) = En. +пахО (5, Avra) | Sir | 


HI Q-Learning 的 收敛 过 程 就 是 一 个 不 断 迭 代 ， 把 整个 树 靠 下 部 分 的 Reward 向 靠 上 的 
部 分 去 移动 的 过 程 ， 这 个 刚才 在 前 一 节 中 已 经 看 到 了 。 
也 就 是 要 最 小 化 : 


Ө MAW- 贝尔 曼 (Richard Bellman, 19204F 8 H 26 H—1984 ^E 3 Н 19 Н), 美国 应 用 数学 家 、 美国 国家 科 
学 院 院士 、 动 态 规划 的 创始 人 。 
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Ел, + max QS, Ara) 045,45] 

或 者 直接 写作 最 小 化 : 

E[C –0,(5,,4;0)] 

这 个 0 就 和 我 们 在 统计 学 中 用 的 那个 表示 条 件 的 0 是 一 个 含义 ， 表 示 一 个 参数 ， 用 来 
描述 你 实验 环境 中 的 敏感 因素 。 简 单 说 就 是 ， 每 次 迭代 计算 都 会 发 生 Reward 值 的 从 "E" 
向 “根部 ”的 传播 ， 而 这 个 误差 被 定义 成 了 传播 的 量 。 让 网 络 的 映射 关系 不 断 调整 ， 使 得 
这 个 映射 满足 从 一 个 State 到 一 个 Action 的 映射 关系 ， 并 使 得 这 个 传播 的 量 最 小 化 。 在 一 些 
参考 资料 上 也 会 写 : 

Loss(w) = E[r + y max Q(s', а', w)-Q(s, a, w)]° 

请 注意 ， 整 个 网 络 在 这 里 的 表达 式 被 写作 为 : 

O(s, а, w) 

м 就 不 用 说 了 ， 就 是 来 泛泛 地 描述 整个 网 络 中 的 所 有 权重 参数 ; s 就 是 State 向 量化 后 
传人 网 络 的 值 ，& 就 是 Action 的 描述 向 量 。 

想 想 看 ， 这 个 网 络 的 目的 是 为 了 做 一 个 决策 ， 也 就 是 最 好 是 这 样 : 输入 一 个 State， 输 
出 一 个 最 靠 谱 的 Action， 应 该 是 这 样 一 个 结构 。 但 是 这 个 表达 式 和 我 们 要 的 方式 不 大 一 样 ， 
我 们 还 需要 做 一 个 改造 。 

| oem | 
Fo, Mn Soe | oem | 
| Sue | mb | DON | mb ( Оба) | 


| Wo - 





RTT TS | 


既然 我 们 需要 这 样 一 个 功能 的 网 络 ， 那 就 构造 一 个 输入 为 State， 输 出 为 Action 的 网 
络 。 只 不 过 Action 输出 的 时 候 不 是 以 它 的 原始 面貌 出 现 的 ， 输 出 的 是 Qs, а) 的 形式 ， 也 就 
是 一 个 多 维 向 量 。 这 个 向 量 的 维度 有 nn 个 , n 是 Action 的 种 类 数量 ,每 个 维度 都 是 一 个 О 
值 ， 或 者 你 干脆 理解 成 一 个 Reward 值 。 而 最 终 网 络 收敛 结束 后 ， 在 拟 合 的 过 程 中 会 输出 这 
个 nn 维 向 量 ， 向量 的 哪个 维度 的 Q 值 最 高 ， 那 就 选用 哪个 Action 作为 决策 的 结果 。 

到 这 里 的 思路 还 是 一 气 呵 成 的 ，so far so good， 不 过 技巧 性 问题 在 后 面 。 

第 一 个 问题 ，Loss(w) = E[r + у max Q(s', a', w)-Q(s, a, w)] 意味 着 什么 ? 

这 个 损失 函数 的 含义 就 是 指 在 全 局 范围 和 内， 后 面 一 项 由 这 个 Action 引导 到 的 Staten 的 
Reward 评估 值 (也 就 是 Q 值 )， 要 尽 可 能 和 State, 的 Reward 评估 值 接近 。 那 也 就 是 意味 着 
在 训练 的 过 程 中 ， 某 个 状态 State,“ 不 是 一 个 人 在 战斗 "，Sitate, 和 Staten 要 “同时 ”经 过 这 
张 网 络 来 构造 出 这 个 损失 函数 的 结果 ， 就 像 下 图 这 样 的 感觉 。 
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第 二 个 问题 ， 我 们 拿 到 的 原始 样本 是 各 种 各 样 的 不 带 有 任何 远见 的 Reward 标记 值 的 
Q(s, a). 3X t O(s, a) 如 果 就 这 么 直接 输入 到 网 络 中 去 的 话 ， 那 就 算是 彻底 毁 了 。 想 想 也 知 
道 ， 这 个 时 候 的 Ols, a) 还 没有 通过 这 个 传播 过 程 把 远 期 的 收益 传播 到 靠近 树 根部 的 State 
RASA, 那么 在 上 图 中 描述 的 这 个 差 值 最 小 化 也 就 没有 意义 了 。 这 里 说 的 Ols, а) 指 的 是 前 
fil Q-Learning 算法 中 的 那个 表 ， 而 O(s, w) 是 指 DQN 网 络 的 表达 式 ， 要 素 由 输入 的 状态 s 
和 待定 系数 w 构成 。 那 么 整个 网 络 Os, w 拟 合 出 来 的 是 一 个 稳定 的 State 到 О 值 的 映射 关 
系 。 这 里 的 Q 还 没有 稳定 之 前 拟 合 的 结果 根本 不 能 保证 决策 的 可 靠 性 ， 因 为 远 期 的 Reward 
压根 就 没 考虑 。 

怎么 办 呢 ? 还 能 怎么 办 ， 把 Reward 从 后 往 前 传 喘 。 按 照 经 典 论 文 《 Playing Atari with 
Deep Reinforcement Learning 》 的 算法 说 明 ， 这 个 训练 过 程 大致 是 这 样 的 9 ， 

1) 初始 化 一 个 经 验 池 (experience replay)， 就 是 样本 集 。 

2) 初始 化 刚才 我 们 说 的 这 个 Обе, w) 网 络 。 

3) 做 M 轮 下 面 的 工作 ， 相 当 于 做 M 个 mini batch. 

下 面 要 初始 化 一 个 盘面 x。 

3.1) 以 一 个 概率 e 做 一 个 Action——a,, VA (1-8) 的 概率 选取 一 个 О 值 最 大 的 Action, 

这 个 步骤 中 给 的 这 个 e 就 是 希望 帮助 机 器 有 一 定 的 概率 学 习 到 新 的 东西 。 如 果 每 次 都 
是 取 О 值 最 大 的 Action， 那 就 会 陷入 一 种 “ 先 人 为 主 ”的 困境 ， 那 在 最 初 的 阶段 就 有 极 大 
的 概率 刚巧 执行 了 一 个 Reward 并 不 大 的 Action， 然 后 就 一 直 在 这 个 State 的 情况 下 永远 去 
尝试 用 这 个 Action 作为 决策 结果 ， 这 当然 很 不 靠 谱 。 

3.2) 根据 x, 和 а, 在 环境 中 的 反馈 获得 相应 的 Reward 值 ” 和 盘面 x,,,。 

3.3) FE x, a, хь, 六 这 个 序列 存放 在 经 验 池 里 面 。 

3.4) 从 经 验 池 中 随机 选择 部 分 序列 x, аз ху. т, AER y, liio, yy; 的 定义 原则 如 下 : 


Ө 为 了 简化 描述 ， 与 原文 表述 略 有 出 入 。 
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Q WR x, 已 经 是 最 后 一 个 状态 (没有 发 现 有 下 一 个 状态 )， WA y =r; 
о 如 果 х. 不 是 最 后 一 个 状态 ,那么 y= r+ у max C(x а"; 0)， 相 当 于 进行 了 一 次 Q 
值 的 向 前 (在 树 上 就 是 向 上 ) 传播 。 

3.5) 对 0) - Q(x, а; O) 用 梯度 下 降 法 做 优化 。 等 于 这 个 过 程 中 一 边 生 成 样本 ， 一 边 
进行 Q 值 传递 ， 一 边 对 损失 函数 进行 优化 。 

以 上 部 分 要 重复 做 若干 次 。 

这 样 一 个 描述 其 实说 的 是 在 线 学 习 的 概念 ， 也 叫 联机 学 习 ， 等 于 在 环境 中 一 边 通 过 试 
探 生成 新 的 学 习 样本 , 一边 学 习 调 整 策略 。 还 有 一 种 方式 效率 更 高 一 些 ， 叫 离线 学 习 (或 者 
叫 脱 机 学 习 )， 就 是 先 准 备 大 量 的 历史 数据 样本 作为 经 验 池 ， 然 后 直接 根据 这 些 历史 数据 信 
息 来 学 习 。 

在 了 解 到 整个 DON 的 工作 原理 后 会 发 现 ， 它 的 这 一 特点 是 与 以 往 我 们 使 用 深度 学 习 网 
络 的 用 法 显得 最 不 同 的 地 方 ， 也 是 最 有 趣 的 地 方 ， 大 家 好 好 体会 一 下 。 网 络 拟 合 出 来 的 是 
一 个 评价 值 ， 训 练 过 程 是 伴随 着 那个 由 短视 慢 慢 通过 Reward 传播 来 形成 的 不 短视 的 过 程 中 
的 State 到 О 最 大 值 的 映射 逻辑 。 而 损失 函数 是 描述 一 个 差距 ， 就 是 一 个 State 到 它 后 面 的 
一 个 State 评估 的 差距 ， 让 它 最 小 化 我 们 的 目的 就 实现 了 。 

Q-Learning 这 样 的 算法 和 实现 过 程 要 我 们 自己 从 零 开始 想当然 会 很 困难 ， 让 我 们 来 搭 
建 环境 去 实现 这 个 过 程 也 会 非常 花 时 间 ， 但 是 不 要 紧 , 现在 有 很 多 大 神 们 在 做 的 事情 就 是 
帮 我 们 造 免 费 的 “玩具 ”。 如 果 要 快速 上 手 接触 新 鲜 事物 的 话 ， 当 然 还 是 通过 找 现成 的 玩具 
最 为 快捷 。 下 面 我 们 就 来 介绍 一 个 开源 项 目 Gym。 


11.3.1 OpenAl Gym 


2015 年 12 月 16 日 ， 特 斯 拉 CEO 埃 隆 ' 马 斯 克 (Elon Musk) 和 创业 组 化 器 Y 
Combinator 总 裁 山 姆 . 奥 特 曼 (Sam Altman) 创建 了 人 工 智能 公司 OpenAI， 并 表示 将 其 
研究 成 果 开 源 分 享 给 研究 人 工 智 能 的 每 一 个 人 。 国 外 知名 科技 媒体 《 连 线 》 杂 志 发 表 评 
论文 章 ， 称 开源 的 OpenAI 的 成 立 将 人 工 智 能 研究 推 向 高 潮 ， 同 时 也 转变 了 目前 由 谷歌 、 
Facebook 等 巨头 引领 的 人 工 智 能 领域 竞争 格局 。 未 来 ,OpenAI 有 望 成 为 这 一 领域 的 监管 者 ， 
将 其 引 向 对 人 类 更 为 安全 的 发 展 轨迹 上 来 。 

谷歌 和 Facebook 正在 将 人 工 智能 推 向 新 的 时 代 ，OpenAI 至 少 还 可 以 监督 它们 ， 当 然 
还 会 监督 其 他 人 。 深 度 学习 初创 企业 Skymind.io 的 联合 创始 人 克 里 斯 * JE BEAR RE (Chris 
Nicholson) 说 :“ 马 斯 克 和 OpenAI 已 经 看 到 了 人 工 智能 的 势不可挡 ， 他 们 唯一 希望 的 是 改 
变 其 发 展 轨 迹 。” 

2016 4 4 Н 28 H, Open AI 对 外 发 布 了 人 工 智 能 一 款 用 于 研发 和 比较 强化 学 习 算法 的 
工具 包 OpenAl Gym， 正 如 Gym 这 词 所 指 的 意思 (健身房) 一 样 ， 在 这 一 平台 上 ， 开 发 者 
可 以 把 自己 开发 的 AI 算法 拿 出 来 训练 和 展示 ， 获 得 专家 和 其 他 爱好 者 的 点 评 ， 共 同 探讨 和 
研究 。 不 管 马 斯 克 和 希望 把 所 有 AI 技术 进行 开发 的 梦想 多 么 远大 和 浪漫 ， 其 背后 的 真正 动机 
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是 什么 , 至少, 在 OpenAI Gym 里 ， 可 以 看 到 AI 开放 化 的 步伐 正在 渐渐 加 快 。 

如 果 OpenAI 能 够 坚守 他 们 的 使 命 ， 让 所 有 人 都 能 接触 到 新 技术 理念 ， 那 么 它 至 少将 是 
对 谷歌 、Facebook 等 巨头 的 一 次 考验 。 

HVE, OpenAI 研究 人 员 John Schulman 与 NVIDIA 的 GPU 计算 软件 首席 技术 员 Mark 
Harris 分 享 了 一 些 关 于 这 个 组 织 的 细节 ， 以 及 OpenAI Gym 将 如 何 让 AI 研究 者 更 容易 地 设 
计 、 和 迭代 、 优 化 他 们 下 一 代 的 应 用 程序 。 . 

John 在 加 州 理工 大 学 修 习 物理 学 ， 随 后 在 加 州 大 学 伯克利 分 校 继续 深造 。 在 伯克利 ， 
继 短暂 地 学 习 了 神经 科学 之 后 ， 他 师 从 Pieter Abbeel 研究 机 器 学 习 与 机 器 人 学 ， 最 终 将 强 
化 学 习作 为 他 的 主要 研究 兴趣 。 

我 们 现在 可 以 登录 Gym 的 官方 网 站 https://gym.openai.com/ 来 获取 更 多 的 相关 信息 。 
在 这 个 网 站 上 ， 我 们 将 看 到 很 多 有 趣 的 研究 项 目 ， 主 要 是 游戏 或 类 游戏 场景 相关 的 。 

过 去 对 于 强化 学 习 研 究 无 法 高 效 地 开展 主要 是 有 很 多 非 算 法 层面 的 问题 无 法 解决 ， 例 
如 主体 和 环境 的 交互 这 个 环节 就 比较 复杂 ， 要 记录 这 些 环境 向 量 ， 要 能 够 给 环境 有 效 的 
Action， 要 能 够 在 比较 短 的 时 间 内 完成 大 量 的 样本 收集 和 测试 。 这 些 除了 要 对 算法 有 相当 的 
了 解 ， 还 要 对 环境 适 配 工作 的 工程 问题 有 相当 的 解决 能 力 才 行 ， 这 不 是 轻易 能 做 到 的 。 此 
外 ， 和 传统 的 分 类 应 用 类 的 场景 不 一 样 ， 强 化 学 习 没 有 标准 化 而 且 高 质量 的 Benchmark © 可 
以 做 ， 这 也 是 阻碍 其 发 展 和 进步 的 一 个 因素 。 当 然 这 些 已 经 在 Gym 的 帮助 下 有 了 一 定 程度 
的 解决 ， 起 码 我 们 可 以 在 这 个 项 目 中 获得 大 量 有 效 的 高 质量 的 样本 数据 集 和 测试 集 。 


Atari 
Reach high scores in Atari 2600 games. 





Ө 来 源 于 tech.163.com， 有 删改 。 
Ө 基准 ， 人 参照。 一 般 在 信息 领域 就 是 俗称 的 跑 分 或 者 刷 榜 ， 以 一 定 的 标准 数据 或 者 环境 作为 对 比 基 准 ， 不 同 
的 产品 在 其 上 的 表现 作为 评价 的 一 种 对 比 机 制 。 
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在 这 个 项 目 中 有 这 样 一 些 实验 场景 ，“ Classic Control ”经典 控 制 类 ， 就 是 工业 控制 中 
用 的 一 些 在 重力 系 中 保持 小 棍 晃 动 但 是 直立 不 倒 的 。 


——^ 2 
Episode 343 
说 明 : 
口 “Algorithmic” 模 仿 计算 方法 。 
口 “Atari ”是 模拟 老 一 代 的 Atari 游戏 机 的 游戏 环境 的 。 





口 “Board games ”是 一 些 棋盘 游戏 ， 目 前 看 到 的 主要 是 围棋 。 
О "Box 2D” 是 模拟 在 一 些 2D 环境 的 沙 箱 中 做 连续 控制 类 的 。 


192500 
| aan 
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此 外 还 有 “MuJoCo”“Toy text” SA, KBAR "Doom" (HKA) 这 类 “高 
难度 ”游戏 的 实验 场景 。 


11.3.2 Atari 游戏 


现在 网 上 传 得 比较 火 的 是 关于 用 TensorFlow dt Atari 游戏 的 一 些 论文 ， 例 如 《 Playing 
Atari with Deep Reinforcement Learning 》 以 及 相关 的 一 些 实现 代码 https://github.com/kuz/ 
DeepMind-Atari-Deep-Q-Learner。 在 大 多 数 的 简单 游戏 上 ， 基 于 DON 的 表现 已 经 超过 了 人 
类 。 毕 竟 一 旦 算法 收敛 后 ， 这 种 东西 需要 的 “机 械 反 应 ”的 时 间 比 人 要 短 得 多 。 

Atari 游戏 比 起 任天堂 的 FC 游戏 来 说 要 好 训练 一 些 。 笔 者 在 幼年 时 玩 过 一 次 Atari 游戏 
(不 经 意 间 暴露 了 年 龄 )， 说 实在 的 ， 现 在 真 的 是 忘 了 当时 是 一 股 什么 力量 支撑 自己 在 玩 ， 反 
正 现在 回 过 头 来 看 这 种 游戏 有 点 太 抽 象 了 ， 里 面 的 各 种 物体 表示 太 过 简单 (估计 是 为 了 节省 
空间 )， 除 了 让 机 器 人 做 训练 简单 一 点 ， 几 乎 没 啥 好 玩 的 地 方 切 靠 脑 补 。 整 个 控制 器 
就 是 一 个 竖立 的 摇 杆 掌管 方向 ， 还 有 一 个 红色 的 按钮 管 “ Action”。 








这 种 网 络 最 后 设计 起 来 就 是 要 拟 合 一 个 输出 ,一 个 从 State 到 Action 的 输出 。 


Convolution Convolution Full connected Full connected 
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DQN 的 前 3 层 都 是 卷 积 层 用 来 提取 特征 ， 输 入 为 84 x 84x 4 的 图 片 (就 是 屏幕 截图 )， 
最 后 是 两 个 全 连接 层 ， 输 出 结果 是 8 个 方向 与 空 输入 一 一 9 个 状态 ， 和 是 否 按 红色 按钮 2 个 
状态 , 一 共 16 个 输出 。 具 体 细节 就 不 展开 了 ， 大 家 有 兴趣 自己 下 载 代码 编译 着 玩 吧 ， 代 码 
的 位 置 在 https://github.com/openai/gym。 好 在 Gym 项目 已 经 提供 了 很 好 的 Enviornment, 
可 以 用 很 少量 的 代码 就 初始 化 能 够 和 主体 互动 的 环境 以 提供 反馈 。 还 可 以 把 自己 提供 的 算 
法 模型 上 传 到 该 网 站 去 以 供 世界 范围 内 的 爱好 者 研究 与 交流 。 


11.4 小 结 


本 章 我 们 简单 接触 了 强化 学 习 的 大 致 思路 ， 作 为 一 个 完整 的 解决 机 器 人 自我 学 习 
的 过 程 来 说 ， 强 化 学 习 是 一 套 行 之 有 效 的 严整 的 理论 体系 。 作 为 其 中 的 一 种 实现 方式 ， 
TensorFlow 提供 了 一 些 离线 学 习 的 思路 ， 也 就 是 拿 着 大 量 的 样本 来 做 Batch 学 习 的 。 

以 目前 的 计算 能 力 来 说 ， 输 入 为 图 片 和 声音 ， 输 出 结果 为 具体 Action 的 整个 过 程 收敛 
是 非常 慢 的 。 尤 其 是 Action 越 复杂 ， 学 习 起 来 越 慢 ， 复 杂 度 是 几何 级 数 增长 的 。 所 以 在 理 
论 层面 没有 突破 的 情况 下 ， 如 果 想 要 训练 一 个 能 够 有 上 比较 高 胜率 的 “王者 荣 沪 ”玩家 机 器 
人 ， 哪 怕 是 一 个 “超级 玛丽 ”一 命 通关 的 机 器 人 都 需要 消耗 大 量 的 GPU BEM, “GAR TR 
后 都 是 无 法 估计 的 时 间 和 金钱 。 

到 本 书 截稿 的 时 间 为 止 ， 笔 者 与 身边 的 小 伙伴 仍旧 在 研究 使 用 DQN 来 玩 FC 模拟 器 或 
对 弈 类 游戏 的 方法 中 ， 并 已 经 取得 了 一 定 的 阶段 性 成 果 。 相 信 在 不 久 的 将 来 我 们 也 会 有 更 
多 的 内 容 可 以 与 大 家 分 享 。 
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对 抗 学 习 


一 个 盘 新 的 名 词 通常 都 会 让 人 感觉 神秘 。 我 们 对 不 了 解 的 东西 都 会 感到 卫生， 或 者 不 
知 所 措 。 对 抗 学 习 也 是 这 样 一 种 从 名 字 上 完全 无 法 判断 用 途 的 东西 。 

我 们 现在 说 的 对 抗 学 习 通 常 特 指 生成 对 抗 网 络 ( generative adversarial networks, 
GAN), {Е 2014 年 由 Ian Goodfellow 博士 提出 并 在 随后 的 几 年 作为 一 股 新 的 深度 学 习 热 潮 
奔涌 向 前 ， 一 时 间 各 种 GAN 的 变种 和 演进 版 本 如 雨后春笋 般 出 现 。 

由 于 GAN 的 出 现 比较 晚 ， 研 究 成 果 也 没有 CNN 或 RNN 多 。 公 开 的 资料 看 来 看 去 也 
就 是 那 几 篇 经 典 的 论文 而 已 。 这 一 章 我 们 就 试 着 讨论 一 下 对 抗 学 习 的 基本 重点 问题 ， 做 个 
概要 性 了 解 好 了 。 


121 目的 


从 数据 科学 的 角度 来 说 ， 人 们 的 一 切 关 于 数学 的 研究 行为 都 是 为 了 解决 量化 和 认 知 的 
问题 。 不 论 是 哪 种 方法 ， 只 要 它 是 科学 的 那 就 万 变 不 离 其 宗 。 

GAN 存在 的 目的 是 为 了 通过 一 定 的 手段 ， 模 拟 出 一 种 数据 的 概率 分 布 的 生成 器 (生成 
手段 )， 使 得 这 种 概率 分 布 与 某 种 观测 数据 的 概率 统计 分 布 一 致 或 尽 可 能 接近 。 可 以 说 ， 这 
是 一 种 尝试 着 用 伪装 的 手段 ， 任 空地 以 假 乱 真 地 生成 一 些 向 量 OBPE) 的 技术 ， 也 算 作 AT 
的 一 个 分 支 领域 ， 而 且 听 起 来 似乎 确实 非常 有 趣 。 

最 简单 的 例子 ， 是 不 是 可 以 有 这 样 一 种 情形 : 假如 我 给 计算 机 一 些 红 玫瑰 花 的 图 片 让 
它 学 习 ， 然 后 通过 学 习 让 它 “ 赁 空地 ”生成 一 张 玫 瑰 花 的 图 片 ， 这 张 图 片 不 是 刚才 学 习 样 
本 中 的 任何 一 个 ,但 还 要 让 我 能 够 较 大 概率 地 认为 这 张 玫瑰 花 的 图 片 是 真实 的 而 不 是 造 出 
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来 的 ? 有 这 样 的 手段 吗 ? GAN 所 做 的 事情 与 这 非常 类 似 。 


12.2 ”训练 模式 


在 这 个 工作 模式 中 ， 从 数理 和 统计 层面 去 解释 ， 这 个 模型 的 目的 是 要 生成 出 两 个 模型 ， 
一 个 叫 G 模型 ( generative model) 和 一 个 D 模型 ( discriminative model)， 即 生成 模型 和 判 
定 模型 。 这 两 个 模型 中 D 模型 是 我 们 以 前 司空 见 惯 的 一 种 模型 ， 比 如 像 CIFAR-10 项 目 中 
的 判断 模型 就 是 典型 的 D 模型 ， 用 来 提取 特征 判断 图 片 的 分 类 标签 。G 模型 是 个 新 面孔 ， 
它 就 是 用 来 生成 样本 的 。 

我 们 就 以 图 片 为 例 ，D 模型 的 目的 是 要 尽 可 能 不 要 误 判 图 片 的 分 类 ， 而 G 模型 是 要 尽 
可 能 根据 图 片 分 类 中 样本 向 量 的 统计 学 特性 捏造 一 些 样本 图 片 ， 使 这 些 样本 能 够 顺利 通过 
D 模型 并 被 判定 为 正确 样本 。 这 里 就 有 个 问题 了 ， 如 果 D 模型 的 能 力 很 强 一 一 火眼金睛 ， 
G 造 出 来 的 图 片 都 能 识别 出 来 是 “ 假 的 "， 那 么 就 说 明 G 这 个 网 络 比 较 弱 ; 而 相反 ， 如 果 G 
模型 的 能 力 很 强 一 一 所 有 捏造 的 图 片 都 能 让 D 模型 误 认 为 是 “ 真 的 "， 那 就 说 明 D 模型 的 
归纳 能 力 仍然 有 问题 一 一 没有 很 好 地 抓 住 分 类 的 本 质 。 那 么 怎么 才 叫 训练 好 了 呢 ? 判断 标 
准 是 什么 ?要 回答 这 个 问题 我 们 要 先 引入 一 个 概念 ， 叫 做 二 元 极 小 极 大 博弈 (minimax two- 
player game) 问题 。 


12.2.1 二 元 极 小 极 大 博弈 


极 小 极 大 博弈 问题 是 博弈 论 中 的 一 个 比较 基本 的 概念 ， 是 著名 数学 家 博弈 论 鼻 祖 
75 - 4K (Von Neumann) 提出 的 。 

为 了 通俗 易 懂 ， 我 们 还 是 用 具体 的 场景 化 的 描述 来 解释 一 下 什么 叫做 二 元 极 小 极 大 博 
弈 问题 。 

假如 有 两 个 贪 吃 的 家 伙 来 分 吃 一 块 蛋糕 ， 而 你 是 负责 给 他 们 分 发 的 人 ， 那 就 会 比较 麻 
烦 了 。 这 里 强调 贪 吃 的 意思 是 指 ， 两 个 人 对 方案 评价 的 策略 是 一 致 的 ， 都 是 得 到 的 越 多 则 
越 好 。 那 这 种 情况 下 ， 你 不 管 怎么 切 怎么 分 ， 都 会 至 少 引 得 一 个 人 的 不 满 ， 他 会 认为 自己 
分 到 的 那 块 蛋糕 比较 小 (哪怕 是 小 一 点 点 )。 那 如 何 是 好 呢 ， 也 简单 ， 就 用 一 个 看 上 去 更 为 
“公平 ”的 方法 ， 让 这 两 个 家 伙 都 参与 到 这 个 决定 博弈 的 过 程 中 。 由 于 是 两 个 人 独立 参与 的 
博弈 ， 博 弈 的 结果 是 两 个 人 都 会 认同 的 。 

我 们 称 这 两 个 家 伙 一 个 叫 A， 一 个 叫 B。 首 先 让 A 来 切 蛋糕 ， 而 后 让 В 先 来 选 。 我 们 
把 几 种 可 能 产生 的 情况 列 在 一 个 表格 里 。 


B 选择 ，A 得 到 
A 切 两 块 一 样 大 小 





А 切 得 一 大 一 小 
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对 于 心智 (对 于 大 小 判断 正常 ) 和 最 后 目的 (所 得 尽 可 能 大 ) 一 致 的 两 个 人 来 说 ，B 先 
挑 则 一 定 会 挑选 那个 大 块 的 ， 而 留 给 A 小 块 的 ， 这 指 的 是 其 中 的 “ 极 小 ”这 个 概念 ; 而 A 
在 切 的 时 候 由 于 其 主动 ， 所 以 要 尽 可 能 在 最 开始 保证 自己 的 蛋糕 尽 可 能 大 ， 这 是 “ 极 大 ” 
的 概念 。 而 “ 极 小 极 大 ”的 概念 就 是 A 已 知 B 会 选 大 块 的 ， 所 以 会 把 较 小 的 一 块 切 得 尽 可 
能 大 一 些 ， 对 A 来 说 最 好 的 结果 就 是 表格 中 上 面 的 “一 半 ， 一半 ”的 情形 了 。 这 个 就 是 确 
定 平 衡 点 位 置 的 思想 根源 了 。 

在 这 里 再 补充 一 个 叫做 纳什 均衡 (nash equilibrium) 的 博弈 论 概念 。 纳 什 均衡 是 一 种 策 
略 组 合 ， 使 得 同一 时 间 内 每 个 参与 人 的 策略 是 对 其 他 参与 人 策略 的 最 优 反 映 。 假 设 有 nn 个 
局 中 人 参与 博弈 ， 如 果 某 情况 下 无 一 参与 者 可 以 独自 行动 而 增加 收益 ( 即 为 了 自身 利益 的 
最 大 化 ， 没 有 任何 单独 的 一 方 愿意 改变 其 策略 )， 则 此 策略 组 合 被 称 为 纳什 均衡 。 所 有 局 中 
人 策略 构成 一 个 策略 组 合 (strategy profile)。 纳 什 均衡 ， 从 实质 上 说 ， 是 一 种 非 合作 博弈 
状态 。 

还 是 刚才 这 个 例子 ， 还 是 A 来 切 ，B 来 选 的 情况 。A 应 该 采用 什么 策略 呢 ? А 如 果 切 
成 “一 半 ， 一 半 ” 的 情形 ， 这 时 候 由 B 选 ,那么 B 得 到 一 半 。 这 种 策略 是 A 得 到 一 半 ，B 
也 得 到 一 半 ， 双 方 都 有 一 个 “ 尚 可 ”的 结果 ， 或 者 说 即便 不 满意 但 是 选择 其 他 的 方案 并 不 
比 当 前 的 方案 更 好 。 而 如 果 A 变 化 策略 但 В 不 变化 策略 ， 也 就 是 说 A 切 成 两 个 不 一 样 大 
的 ， 而 B 仍旧 会 拿 走 大 的 部 分 ， 则 A 的 策略 变化 反而 会 减 小 自己 的 收益 ， 所 以 A 没有 变化 
策略 的 动机 。B 同样 没有 变化 策略 的 动机 ， 既 然 是 他 先 挑 选 ， 为 了 收益 最 大 化 ,不 论 A 怎 
么 切 肯定 不 会 选择 较 小 的 那 一 个 。 所 以 A 切 成 “一 半 , 一 半 ” 的 策略 属于 纳什 均衡 的 状况 。 

说 到 这 里 我 想起 一 个 有 趣 的 历史 故事 ， 这 事情 说 起 来 是 在 北宁 时期。 北宋 这 个 朝代 在 
大 多 数 人 的 眼 里 可 能 更 多 的 听 说 的 是 一 些 例 如 “ 澶 渊 之 嚼 ”"、“ 靖 康之 耻 ” 的 屈辱 历史 , 或 
者 是 “梁山 起 义 "、“ 方 腊 造 反 ” 一 类 的 社会 动荡 。 但 是 北宋 总 体 从 治国 上 还 是 涌现 出 一 大 
批 极 具 智 慧 的 治世 能 臣 的 一 一 赵普 、 寇 准 、 张 齐 贤 8 , (LER. Be, ERA, AB. W 
仲 淹 等 。 其 中 在 宋 真 宗 时 期 张 齐 贤 有 过 这 样 一 次 办 案 经 历 。 有 这 人 么 两 位 皇 亲 是 兄弟 关系 ， 
由 于 分 家 庭 财产 闹 起 了 纠纷 。 双 方 都 说 自己 分 得 太 少 对 方 分 得 太 多 ， 所 以 就 闹 到 官府 。 但 
是 皇族 之 间 的 纠纷 地 方 官 们 肯定 是 不 敢 轻 易 插 手 的 ， 得罪 了 谁 都 吃 不 了 忽 着 走 。 直 到 事情 
闹 到 了 皇帝 宋 真 宗 的 面前 ， 皇 帝 也 没有 办 法 做 判断 ， 手 心 手背 都 是 肉 ， 向 着 谁 都 不 好 。 无 
奈 的 皇帝 把 事情 告诉 了 张 齐 贤 ， 张 齐 贤 就 主动 替 皇 帝 承 包 这 个 断案 的 工程 。 张 齐 贤 这 个 时 
候 已 经 是 枢密 副 使 了 ， 在 宋朝 就 相当 于 我 们 俗称 的 宰相 。 然 后 张 齐 贤 就 把 诉讼 双方 找 来 问 : 
“你 们 是 不 是 都 认为 对 方 分 得 的 财产 多 ， 自 己 分 得 的 财产 少 ?” 双 方 都 说 是 。 张 齐 贤 就 说 : 
嘟 OK， 你们 立 个 字 据 签名 画 押 ， 三 天 以 后 我 来 宣判 。 等 双方 立 好 字 据 后 张 齐 贤 最 后 宣判 ; 
“你 们 两 家 既然 都 觉得 对 方 的 财产 多 ， 那 就 各 自 搬家 到 对 方 的 府邸 里 去 ， 只 许 带 人 不 许 带 财 
产 。 房 契 田 契 双 方 做 个 交换 就 行 了 。 既 然 你 们 都 觉得 对 方 的 财产 多 ,， 那 这 样 你 们 两 家 肯定 


Ө 北宋 著名 政治 家 ， 先 后 担任 通 判 、 枢 密 副 使 、 兵 部 尚书 等 要 职 。 
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就 都 满意 了 。” 然 后 又 派 了 不 少 官吏 和 家 丁 监督 他 们 搬家 。 两 兄弟 真是 有 苦难 言 ， 可 是 画 押 
的 字 据 又 在 张 相 爷 的 手 上 ， 不 敢 反悔 ， 也 不 敢 上 告 ， 只 得 认 了 。 

插播 的 这 个 小 故事 是 不 是 很 有 趣 呢 ? 其 实在 这 个 案例 中 ， 两 个 皇 亲 只 不 过 是 都 想 额 外 
多 得 到 一 些 财产 或 者 从 对 方 那里 多 分 得 到 一 些 财产 而 已 ， 他 们 并 不 是 真 的 认为 对 方 的 财产 
比 自己 多 。 当 然 了 ， 如 果 事 实 上 真 的 是 双方 都 觉得 对 方 的 财产 比 自己 多 , 那 只 可 能 是 双方 
对 于 财产 的 估算 手段 不 一 样 而 导致 的 偏差 了 。 好 了 ， 故 事 就 讲 到 这 里 ， 这 也 是 博弈 论 范畴 
中 的 一 个 小 案例 ， 大 家 想 系统 学 习 博 弈 论 的 话 还 是 要 去 看 经 典 的 书籍 。 我 们 言 归 正 传 继 续 
讲 对 抗 学 习 。 


12.2.2 ”训练 


从 二 元 极 小 极 大 博弈 的 观点 来 看 ， 双 方 要 达到 一 个 都 比较 “ 爽 ” 的 平衡 应 该 是 一 个 类 
似 于 “满意 度 最 大 化 ”的 过 程 ， 双 方 都 别 搞 得 太 差 了 。 那 么 在 对 抗 网 络 模型 中 就 是 让 G 网 
络 生 成 的 样本 有 一 半 可 以 通过 D 网 络 的 检测 ， 而 有 一 半 无 法 通过 检测 。 双 方 在 这 个 过 程 中 
不 断 调整 自己 的 参数 进行 伪造 和 反 伪 造 的 对 抗 ， 对 抗 网 络 也 因此 得 名 。 

这 样 一 种 检验 方式 不 由 得 让 我 想起 南北 朝 时 期 著名 的 暴君 一 赫 连 勃勃 用 过 一 种 类 
似 的 手段 来 强化 兵器 制造 和 筑 成 术 的 应 用 。 在 其 筑 造 统 万 城 8 的 时 候 ， 命 令 工匠 们 制造 兵 
9e. de CS + 赫 连 勃勃 载 记 》 记 载 “阿利 性 尤 工 巧 ， 然 残忍 刻 暴 ， 乃 蒸 土 筑 城 ， 锥 和 一 
寸 ， 即 杀 作者 而 并 筑 之 ” 。 大 概 意思 就 是 筑城 的 土 都 经 过 蒸 熟 ， 筑 成 后 用 铁 锥 刺 土 法 检验 其 
硬度 ， 凡 刺 进 一 寸 ， 便 杀 筑 者 ; 凡 刺 不 进去 便 杀 刺 者 。 据 说 城 坚 硬 可 以 磨 刀 和 斧 。 

不 知道 这 个 暴君 是 不 是 具备 这 样 的 学 术 思 想 ， 但 是 他 的 逻辑 就 是 说 在 这 样 一 个 竞争 的 
环境 中 是 可 以 同时 得 到 极为 坚固 的 城垣 和 极为 尖 利 的 刀 作 的。 在 工程 标准 不 好 确定 的 情况 
下 ,这 可 能 也 不 失 为 一 种 好 的 标准 。 不 过 老实 ， 讲 以 我 有 限 的 眼界 大 概 只 能 做 这 样 一 个 判 
断 ， 一 种 双方 竞争 中 产生 的 势均力敌 的 对 抗 性 模型 应 该 是 穷尽 了 当时 双方 最 好 的 水 平 来 构 
成 的 平衡 结构 ， 是 一 种 全 局 “最 努力 ”的 评价 结果 。 

我 们 回来 再 看 GAN 的 模型 ， 如 图 所 示 ， 左 侧 的 这 个 就 是 D 网 络 ， 通 过 复杂 的 函数 映 
射 过 程 让 一 个 图 片 的 向 量 x 在 通过 后 形成 一 个 分 类 标签 。 右 侧 这 个 部 分 表示 一 个 z 向 量 通过 
一 个 网 络 然后 将 输出 一 个 x 向量， 使 得 它 可 以 通过 DD 网 络 的 检测 。 评 价 函数 写 出 来 是 这 样 , 

min max V (D,G) = E, paat [log D(x)] + Е, psc [080 - DGC) 


其 中 的 x 一 Pdata(x) Ж 2 ~ Pz(z) 指 x 和 z 分 别 满足 各 自 的 分 布 律 ; 
这 里 的 D(x) 是 指 真实 的 图 片 被 判断 为 真实 的 概率 ; 
这 里 的 G(z) 是 指 一 个 z 噪 声 输 入 到 G 网 络 ， 并 输出 一 个 图 片 的 构造 过 程 ; 


Ө 赫 连 勃勃 (381 年 一 425 4E), ERIM, HARB (ОЗЕ АГ) 建立 者 。 
O 统 万 城 为 东晋 时 南 匈 奴 贵族 赫 连 勃勃 建立 的 大 夏 国都 城 遗 址 ， 也 是 匈奴 族 在 人 类 历史 长 河中 留 下 的 唯一 一 
座 都 城 遗 址 ， 是 中 国 北方 较 早 的 都 城 。 
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D(G(z)) 是 指 由 G 网 络 生成 的 图 片 ， 被 识别 为 真实 图 片 的 概率 。 

D(x) 和 1-D(G(z)) 各 自 取 了 对 数 以 后 会 各 自 产生 一 个 负 值 ， 可 以 看 出 D(x) 和 1-D 
(G(x) 有 任何 一 个 接近 0 的 话 都 会 产生 一 个 绝对 值 非常 大 的 负 值 ， 导 致 评价 VOD, С) 很 低 。 

在 训练 的 过 程 中 ，D 网 络 和 G 网 络 是 交替 进行 训练 的 ， 两 者 的 目的 也 不 一 样 。D 的 训 
练 是 希望 尽 可 能 好 地 正确 提取 x 的 特征 ， 增 大 正确 判断 的 概率 D(x) ; G 的 训练 是 希望 尽 可 
能 伪造 出 一 些 图 片 让 DD 误 以 为 是 真 的， 也 就 是 增 大 1-D(G(z))。 

而 实际 上 Pdata(x) 和 Pz(z) 吻合 的 时 候 是 会 有 最 优 解 的 。 这 个 地 方 我 们 就 定性 展开 一 下 
也 很 快 能 得 到 这 个 结论 ， 这 相当 于 在 求 In x + In(1—x) 的 最 大 值 ， 等 价 于 求解 e"” O W 
КАН, ORÍ e" e"" 的 最 大 值 ， 求 解 x(1-2) 的 最 大 值 。 这 是 一 个 开口 向 下 的 抛物 线 ， 极 


值 的 位 置 是 x = 的 位 置 。 


可 能 大 家 也 看 到 了 ， 在 这 样 的 网 络 模型 中 是 没有 损失 函数 的 概念 的 ， 而 是 为 了 寻求 一 
个 最 大 值 。 在 整 本 书 里 也 就 只 有 这 样 一 个 小 分 支 领域 里 没有 损失 函数 ,但 是 有 一 个 待 优化 
的 评价 函数 ， 那么 等 于 是 对 这 个 评价 也 数 用 梯度 上 升 的 方法 做 “四 优化 ”。 其 实 很 好 理解 ， 
相当 于 头 朝 下 拿 着 大 项 看 一 个 凸 函 数 ， 损 失 函 数 越 小 的 情况 相当 于 评价 函数 越 大 的 情况 ， 
一 个 是 误差 的 大 小 ， 一 个 是 收益 的 多 少 ， 这 样 理解 就 可 以 了 。 过 程 也 比较 简单 : 
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做 人 次 2 : 
V w— >| logD(x x) +log(1-D(G (2")))| 


ial 


再 做 1 次: 
Vo FLU - D(c(z^ )))| 


重复 做 这 个 过 程 若干 次 ， 次 数 是 一 个 指定 的 整数 。 

这 里 的 表达 式 虽 然 看 起 来 复杂 ， 但 是 实际 上 跟 损失 函数 更 新 的 过 程 很 类 似 ， 对 评价 函 
am 然后 用 梯度 上 升 来 更 新 。m 是 指 样本 个 数 ， 做 大 次 更 新 的 是 D "m w (公式 

写 的 是 Od), 做 1 次 更 新 的 是 G 网 络 的 w (公式 上 写 的 是 bg)。 

不 过 GAN 也 是 有 问题 的 ， 其 中 一 个 比较 重要 的 问题 是 不 收敛 问题 (non-convergence)。 
САМ 网 络 的 目的 是 做 一 个 D 网 络 和 G 网 络 的 纳什 均衡 ， 然 而 只 有 保证 评价 函数 是 凹 函数 
的 情况 下 才能 保证 纳什 均衡 ， 换 句 话 说 就 是 这 个 函数 可 能 会 收敛 到 一 个 令 我 们 不 满意 的 
TE REAR AS (不 是 50% 的 检测 通过 率 )。 这 篇 论文 的 英文 原版 是 《 Generative Adversarial 
Networks 》， 作 者 就 是 大 神 Ian Goodfellow 和 他 的 小 伙伴 们 ， 大 家 有 兴趣 可 以 下 载 这 篇 
GAN 领域 的 开山 力作 https://arxiv.org/pdf/1406.2661 .pdf., 

不 管 怎么 样 ， 虽 然 GAN 在 尝试 的 过 程 中 有 着 这 样 或 那样 的 问题 ， 它 仍然 为 我 们 带 来 了 
很 多 新 的 东西 ， 尤 其 是 这 种 构造 模型 的 对 抗 方法 ， 这 足以 让 我 们 眼前 一 亮 了 。 


12.3 CGAN 


如 果 GAN 的 基本 思路 没有 问题 ， 那 么 CGAN 
的 概念 应 该 也 不 难 理解 。 

条 件 生 成 式 对 抗 网 络 (CGAN，conditional 
generative adversarial networks) 是 对 原始 GAN 
的 一 个 扩展 ， 生 成 器 和 判别 器 都 增加 额外 信息 y 
AR, ?可 以 是 任意 信息 ， 例 如 类 别 信息 或 者 
其 他 模 态 的 数据 。 通 过 将 额外 信息 y 输送 给 判别 
模型 和 生成 模型 ， 作 为 输入 层 的 一 部 分 ， 从 而 实 
现 条 件 GAN。 在 生成 模型 中 先 验 输入 噪声 P(z) 
和 条 件 信息 y 联合 组 成 了 联合 隐 层 表征 。 对 抗 训 
练 框架 在 隐 层 表征 的 组 成 方式 方面 相当 地 灵活 。 
类 似 地 ， 条 件 GAN 的 目标 函数 是 带 有 条 件 概 率 


Discriminator D(xly) ©] 





Ө 论文 中 说 在 其 实验 中 令 El, 
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的 二 元 极 小 极 大 博弈 : 
min max /(D,G) = E, Paus [log D(x | y)] +E. pec.) [log - D(G( | у)))] 
跟前 面 传统 的 GAN 的 评价 函数 相 比 
min max V(D,G) = Е, panin log D(x)] + Ep [log(1 - D(G(z)))] 


差别 并 不 大 ， 仅 仅 是 在 D 网 络 和 G 网 络 上 加 了 条 件 。 
了 解 过 朴素 贝 叶 斯 的 读者 朋友 对 这 样 的 写法 应 该 不 人 感到 非常 陌生 。 它 工作 起 来 的 方 
式 也 比较 好 理解 ， 就 是 在 D 网 络 和 G 网 络 分 别 进行 处 理 的 过 程 中 ， 让 输入 加 入 一 个 向 
By BAT) RST eee y ETETEA, 也 就 是 相当 于 我 
们 在 前 几 章 看 到 的 P(x|9) 中 的 0 一 一 是 一 回 事 儿 。 这 种 限制 或 者 说 参数 的 出 现 会 让 网 络 学 习 
到 在 不 同 参数 的 情况 下 ， 生 成 规则 的 不 同 
我 们 来 看 例子 ， 例 如 在 MNIST 数据 集 上 以 类 别 标签 为 条 件 (one-hot 编码 ) 训练 
CGAN， 可 以 根据 标签 条 件 信 息 ， 生 成 对 应 的 数字 。 生 成 模型 的 输入 是 100 维 服从 均匀 分 
布 的 噪声 向 量 ， 条 件 变量 是 类 别 标签 的 one-hot 编码 。 噪 声 z 和 标签 分 别 映射 到 隐 层 
(200 和 1000 个 单元 )， 在 映射 到 第 二 层 前 ， 联 合 所 有 单元 。 最 终 有 一 个 Sigmoid 生成 模型 
的 输出 (784 维 )， 即 28 x 28 的 单 通道 图 像 。 这 个 时 候 的 x 就 是 指 输入 的 MNIST 中 表示 某 
-个 数字 的 图 片 向 量 , ”就 是 0 一 9 的 类 别 标签 one-hot 编码 向 量 ， 输 出 是 该 样本 来 自 训练 
集 的 概率 ， 
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除 此 之 外 CGAN 还 可 以 应 用 于 多 模 态 学 习 ， 比 如 用 于 图 像 自动 标注 。 自 动 标注 图 像 
( automated tagging of images)， 使 用 多 标签 预测 。 使 用 CGAN 生成 tag-vector 在 图 像 特征 
条 件 上 的 分 布 。 数 据 集 : MIR Flickr 25 000 dataset. 语言 模 型: 训练 一 个 skip-gram 模型， 
带 有 一 个 200 维 的 词 向 量 ， 这 个 就 不 是 one-hot 了 ， 因 为 可 以 同时 出 现 多 个 位 上 是 “1” 的 
情况 。 

(1) 生成 模型 输入 /输出 


© 官网 位 置 ;http://press.liacs.nl/mirflickr/ 
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А: 
噪声 数据 100 4 =>500 维度 , 
图 像 特征 4096 维 =>2000 #, 
这 些 单元 全 都 联合 地 映射 到 200 维 的 线性 层 。 


生成 的 词 向 量 (200 维 的 词 向 量 ) 
(2) 判别 模型 的 输入 /输出 
输入 : 
500 维 词 向 量 ， 
1200 维 的 图 像 特征 。 
输出 如 下 图 所 示 ， 第 一 列 是 原始 像 ， 第 二 列 是 用 户 标注 的 tags， 第 三 列 模型 G 生成 的 tags. 










taxi, passenger, line, 
transportation, railway 
station, passengers, 
railways, signals, rail, 
rails 










montanha, trem, 
inverno, frio, peopele, 
male, plant life, tree, 
structures, trans-port, car 


chicken, fattening, 
cooked, peanut, cream, 
cookie, house, made, 
bread, biscuit, bakes 









food, raspberry, 
delicious, homemade 


creek, lake, along, 
near, river, rocky, 
treeline, valley, woods, 
waters 


love, people, posing, girl, 
young, strangers, petty, 
women, happy, life 


y people, portrait, female, 
i - baby，indoor 


Nw 

其 实在 CGAN 的 应 用 中 我 们 也 能 看 到 ， 不 光 是 图 片 ， 文 字 也 可 以 进行 “伪造 " 。 这 种 
对 抗 学 习 的 方式 使 得 所 有 的 传统 深度 学 习 的 输入 样本 (向 量 ) 都 可 以 成 为 可 以 生成 的 东西 。 
而 且 CGAN 对 GAN 进行 扩展 的 方式 不 知道 大 家 有 没有 注意 到 ， 那 就 是 引入 条 件 y 之 后 可 
以 在 训练 的 过 程 中 让 模型 学 习 多 种 不 同 分 类 的 样本 生成 过 程 ， 根 据 one-hot 编码 生成 不 同 的 
指定 类 别 的 对 象 ， 而 不 再 是 像 GAN 一 样 只 能 判断 输入 是 否 为 某 一 种 或 一 类 的 这 样 一 个 命 
题 。 这 是 一 件 非 常 有 趣 并 值得 尝试 的 事情 。 
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12.4 DCGAN 


还 有 一 种 新 的 GAN 网 络 族 的 变种 ， 叫 做 DCGAN (deep convolutional generative 
adversarial networks， 深 度 卷 积 生 成 对 抗 网 络 ) 。 在 2016 年 有 一 篇 著名 的 论文 《 Unsuperv- 
ised Representation Learning with Deep Convolutional Generative Adversarial Networks 》 论 
述 过 一 些 相关 的 研究 工作 成 果 。 

DCGAN 这 篇 论文 的 提出 看 似 并 没有 很 大 创新 ， 但 其 实 它 的 开源 代码 现在 越 来 越 多 地 被 
使 用 和 借鉴 ， 包 括 笔者 在 项 目的 工作 中 也 在 尝试 应 用 它 。 在 GAN 进化 的 过 程 中 有 很 多 里 程 
碑 式 的 研究 成 果 ，LAPGAN (laplacian pyramid of adversarial networks， 拉 普 拉 斯 金字 塔 生 
成 式 对 抗 网 络 ) ?就 是 其 中 之 一 。LAPGAN 具有 很 多 优良 的 特性 ， 生 成 图 像 的 物体 结构 更 
清晰 ， 物 体 边界 更 显著 。 而 DCGAN 则 更 具有 和 鲁 棒 性 ， 也 就 是 说 DCGAN 指出 了 许多 对 于 
GAN 这 种 不 稳定 学 习 方 式 重要 的 架构 设计 和 针对 CNN 这 种 网 络 的 特定 经 验 。 

1) 既然 之 前 有 一 种 叫做 Strided Convolutional Networks 的 网 络 可 以 从 理论 上 实现 和 有 
pooling 的 CNN 一 样 的 功能 和 效果 ,那么 Strided Convolutional Networks 作为 一 个 可 以 完 
全 可 微 的 Generator G， 这 样 在 GAN 中 会 表现 得 更 加 可 控 和 稳定 。 大 家 不 要 小 看 这 个 “可 
微 "， 因 为 可 微 是 个 非常 重要 的 特性 ， 它 能 让 评价 函数 或 者 损失 函数 有 比较 好 的 收敛 效果 。 

2) 本 来 Facebook 的 LAPGAN 中 指出 Batch Normalization (BN， 批 归 一 化 ) 被 用 在 
GAN 中 的 D 上 会 导致 整个 学 习 的 崩溃 ,但 是 DCGAN 中 则 成 功 将 BN 用 在 了 G 和 D 两 个 
网 络 上 。 这 些 工程 性 的 突破 给 人 带 来 了 很 多 的 惊喜 ， 也 是 由 于 这 种 理论 被 验证 使 得 更 多 人 
选择 DCGAN。 

3) 他 们 在 Visualize Generative Models (可 视 化 生成 模型 ) 也 有 许多 贡献 。 比 如 他 们 学 
习 了 ICLR 2016 论文 《Generating Sentences From a Continuous Space 》 中 的 interpolate space 
(空间 自 改 ) 的 方式 ， 将 生成 图 片 中 的 中 间 隐 含 状 态 都 做 了 显示 ， 这 样 可 以 看 出 图 像 逐 渐 演 
变 的 过 程 。 

不 知道 大 家 有 没有 体会 到 ， 这 几 点 是 非常 重要 和 关键 的 。 在 前 面 介绍 的 传统 的 GAN 网 
络 上 是 有 着 一 些 先天 障碍 的 ， 就 是 它 的 评价 函数 不 是 一 个 标准 的 凹 函数 ， 不 仅 不 是 凹 函数 
而 且 不 可 微 ， 所 以 训练 的 过 程 中 就 会 出 现 不 能 稳定 向 一 个 方向 收敛 的 问题 。 而 在 DCGAN 
里 函数 的 可 微 起 码 可 以 让 函数 平滑 收敛 。 在 这 里 稍微 补充 一 下 关于 可 微 和 可 导 的 解释 ， 这 
样 大 家 可 以 有 点 感性 认识 。 

以 一 个 一 元 函数 y = f(x) 为 例 ， 可 微 是 指 它 连续 ， 这 种 性 质 比 不 可 微 的 函数 要 好 ， 因 为 
如 果 函 数 不 连 续 的 话 ， 那么 用 迭代 法 去 试探 其 左右 的 高 低 就 会 困难 得 多 。 比如 一 个 分 段 函 数 : 

Lh x>= 0 
—1, x<0 


ro-| 


Ө 具体 可 以 参阅 此 论文 《 Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks ), 
https:Warxivorg/pdfr1506.05751.pdf。 
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| а на 
da 
它 断 开 了 。 如 果 一 个 函数 的 断 开 点 更 多 (大 家 想 


这 就 是 一 个 在 х=0 点 不 可 微 的 函数 
象 一 个 断 开 成 几 万 段 不 连续 的 函数 图 形 ) 且 不 单调 ， 那 么 它 来 充当 评价 函数 将 会 非常 精 糕 ， 
因为 非常 难 用 一 个 靠 谱 的 迭代 方法 找到 函数 的 极 值 位 置 。 

而 可 导 的 要 求 则 更 为 茄 刻 ， 它 要 求 这 个 函数 的 曲线 更 为 圆滑 不 能 出 现 “ 锋 利 ” 的 转角 。 
比如 我 们 以 前 接触 过 的 ReLU 函数 ， 就 是 一 个 典型 的 处 处 可 微 但 是 在 x=0 处 不 可 导 的 函数 。 
因为 可 导 要 求 在 任何 一 个 点 的 左右 两 侧 函 数 导 数 的 极限 值 是 一 样 的 。ReLU 显然 不 是 , 在 0 
的 左 侧 导数 为 0， 右 侧 导数 为 1。 








我 们 继续 说 论文 《 Generating Sentences From a Continuous Space 》 中 所 描述 的 一 些 重 
要 成 果 。 在 实验 中 ， 他 们 也 将 向 量 计 算 运 用 在 了 图 像 上 ， 得 到 了 如 下 的 一 些 结果 。 





neutral neutral 


smiling man 
woman ~ woman man 
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ере, rr а тега — а 
тап тап woman 
with glasses without glasses without glasses 


加 -加 + 国 = 
加 ~- 国 + 国 = 辕 


以 第 一 组 图 形 为 例 ,“smiling woman ”一 一 微笑 的 女人 ,“ 减 去 ”一 个 “neutral 
woman ”一 一 中 性 的 女人 ， 再 “加 上 ”一 个 “neutral man ”一 一 中 性 的 男人 ,“ 等 于 ”一 个 
“smiling man” 微 笑 的 男人 。 大 致 上 可 以 这 样 理解 ， 这 种 计算 就 好 像 在 “情绪 ”这 个 维度 上 
用 smiling 表示 1， 用 neutral 表示 0， 在 性 别 这 个 维度 上 用 man 表示 1， 用 woman 表示 -1 
一 样 。 情 绪 这 个 维度 一 次 减 一 次 加 都 是 中 性 ， 所 以 结果 仍旧 是 smiling; 性 别 则 是 woman W 
去 woman 得 到 一 个 中 性 的 描述 ， 再 加 上 man 就 是 男性 描述 了 。 

与 监督 学 习 相 比 ，CNN 在 无 监督 学 习 上 的 进展 缓慢 。 这 篇 论文 结合 CNN 在 有 监督 学 习 
方面 的 成 功 经 验 以 及 无 监督 学 习 的 特点 提出 一 类 被 称 为 深度 卷 积 生 成 对 抗 网 络 (DCGANs) 
的 模型 ， 分 别 使 用 生成 模型 和 判别 模型 ， 从 物体 物件 到 场景 图 像 学 习 到 一 种 层次 的 表征 。 
最 后 ,使 用 学 习 到 的 特征 实现 新 任务 一 一 也 就 是 阐明 它们 可 以 用 于 生成 图 像 的 表征 。 

无 监督 学 习 模 型 用 来 学 习 表 征 ， 而 将 其 结果 用 于 有 监督 学 习 。 通 过 GAN 构建 表征 ， 然 
后 重用 部 分 生成 模型 、 判 别 模型 作为 有 监督 学 习 的 特征 提取 器 。 由 于 GAN 是 最 大 似 然 方法 
的 一 个 有 吸引 力 和 优势 的 替代 方法 ， 所 以 这 种 基于 最 大 似 然 法 的 生成 模型 用 GAN 应 该 是 非 
常 好 的 一 个 方案 。 而 且 对 于 表征 学 习 来 说 ， 无 需 启 发 式 损失 函数 是 有 吸引 力 的 。 

САМ 有 一 个 通病 ， 前 面 我 们 也 提 过 ， 训 练 过 程 的 不 稳定 性 (论文 中 多 次 提 到 过 
“unstable ”这 个 词 ) 会 经 常 导致 生成 器 产 出 无 意义 的 输出 。 目 前 所 有 的 研究 在 试图 理解 和 可 视 
化 GAN 在 学 习 中 究竟 学 到 什么 以 及 多 层 GAN 的 中 间 隐 藏 层 标准 方面 的 成 果 是 非常 有 限 的 。 

历史 上 使 用 CNN 对 GAN 模型 进行 一 些 扩 展 的 尝试 都 不 是 很 成 功 ， 所 以 这 促使 LAPGAN 


woman with glasses 






Results of doing the 
same arithmetic in 
pixel space 
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的 作者 开发 一 种 替代 方法 : 尝试 迭代 地 升级 低 分 辩 率 图 像 ， 也 就 是 平时 我 们 说 的 尝试 用 

GAN 解决 超 分 辨 率 的 问题 。 当 然 在 试图 使 用 各 种 文献 和 参考 资料 中 提 及 的 通常 用 于 有 监督 

学 习 的 CNN 架构 扩展 GAN 时 遇 到 了 不 小 的 困难 。 不 过 最 终 找 到 了 一 类 方法 可 以 在 多 种 数 

据 集 上 稳定 地 训练 ， 并 且 产 生 更 高 分 辩 率 的 图 像 ， 这 就 是 深度 卷 积 生成 网 络 (DCGAN), 
核心 方法 就 是 采用 并 修改 了 三 种 最 近 的 CNN 结构 加 以 改进 。 

(1) 使 用 全 卷 积 网 络 (ап convolutional net) 

在 判别 模型 中 ， 使 用 带 步 长 的 卷 积 (strided convolutions) 取代 了 的 空间 池 化 〈spatial 
pooling)， 容 许 网 络 学 习 自 己 的 空间 下 采样 (Spatial Downsampling)。 其 实 这 种 形式 等 于 人 允 
许 更 多 的 前 层 信息 传输 到 后 层 上 去 。 

生成 模型 ， 使 用 微 步 幅 卷 积 (fractional strided)， 容 许 它 学 习 自 己 的 空间 上 采样 (spatial 
upsampling)。 

(2) 在 卷 积 特征 之 上 消除 全 连接 层 

全 局 的 平均 池 化 有 助 于 模型 的 稳定 性 ， 但 损害 收敛 速度 。 

输入 : 服从 均匀 分 布 的 噪声 向 量 ，100 维 ; 

输出 : 一 个 64 x 64x3 的 RGB 图 像 。 

激励 函数 : 

生成 模型 : 输出 层 用 Tanh 函数 ， 其 他 层 用 ReLU 激励 函数 。 

判别 模型 : 所 有 层 使 用 Leaky ReLU PRAE. 

(3 ) 批 归 一 化 (batch normalization ) 

解决 因 糟 糕 的 初始 化 引起 的 训练 问题 ， 使 得 梯度 能 传播 更 深层 次 。 批 归 一 化 证 明了 生 
成 模型 初始 化 的 重要 性 ， 避 免 生成 模型 崩溃 : 生成 的 所 有 样本 都 在 一 个 点 上 (样本 相同 )， 
这 是 训练 GAN 经 常 遇 到 的 失败 现象 。 

100 维 的 噪声 被 投影 到 一 个 小 空间 幅度 的 卷 积 表征 中 。 有 四 个 微 步 幅 卷 积 ， 然 后 将 这 
些 高 层 表 征 转换 到 64 x 64 像素 的 RGB 三 通道 图 片 。 没 有 全 连接 层 ， 没 有 池 化 层 。 原 文 
对 DCGAN 的 网 络 结构 介绍 的 不 是 很 清楚 ,《Semantic Image Inpainting with Perceptual and 
Contextual Losses 》 这 篇 文章 使 用 了 DCGAN 进行 图 像 修复 ， 对 网 络 结构 和 参数 介绍 得 比较 
清楚 。 如 下 图 所 示 : 








project and 
reshape deconv 5 x 5 






— 
4x4x 1024 ' 二 和 一 / 
8х8х512 16у 16x 256 v 
32x32x128 645 64 x 3 
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conv 5x5 
conv 5x 5 








conv 5x5 
conv5x5 Full 





U 
4х4х512 







566 
—ү—)! 
16x 16x 1288 * 8 х 256 
сг 
32 x 32 x 64 


Yy 
64x64x3 





在 CelebA 数据 集 上 有 202 599 张 人 脸 图 片 ， 为 了 测试 ， 从 里 面 拿 掉 2000 张 。 把 测试 
集 和 训练 集 图 片 中 间 一 个 64 x 64 大 小 的 区 域 去 掉 。 
在 实验 中 有 两 种 破坏 ， 一 种 是 随机 去 掉 80% 的 像素 ， 或 者 是 中 间 技 失 一 个 大 的 像素 区 
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域 。 两 种 任务 都 非常 具有 挑战 性 ， 前 者 有 80% 的 像素 信息 需要 从 非常 少 的 信息 中 恢复 回来 ; 
而 后 者 ， 需 要 恢复 一 个 内 容 温 和 的 信息 一 一 眼睛 、 鼻 子 、 嘴 巴 、 眉 毛 等 。 当 然 最 后 总 体 来 
说 这 种 方式 是 成 功 的 ， 这 些 破 损 的 图 片 被 高 质量 地 恢复 了 。 

在 Github 上 也 有 DCGAN 的 一 些 代 码 ， 这 里 选取 了 其 中 的 一 个 : https://github.com/ 
carpedm20/DCGAN-tensorflow， 大 家 可 以 下 载 来 玩 玩 。 项 目 封 面 上 也 有 一 些 奇 形 怪 状 的 小 
鬼脸 ,一 看 便 知 就 是 DCGAN 的 杰作 。 





12.5 ”小结 


在 本 章 我 们 简单 接触 了 生成 对 抗 网 络 的 原理 与 应 用 。 

深度 生成 对 抗 网 络 在 整个 深度 学 习 界 都 算是 比较 新 的 概念 ， 相 关 的 研究 成 果 也 还 是 比 
较 少 ， 远 没有 传统 的 深度 学 习 的 网 络 成 果 来 的 多 。 到 目前 为 止 ， 深度 生成 对 抗 网 络 的 相关 
资料 中 绝 大 部 分 来 源 于 英文 论文 ， 大 家 如 果 想 找 相关 资料 请 到 https://arxiv.org/ 去 查询 。 现 
在 网 上 能 够 查 到 的 中 文 资料 基本 也 都 是 这 些 英文 论文 的 翻译 版 或 者 片段 截取 的 内 容 转述 。 


ww ai БЫ. сот 60 00000 


第 12 章 对 抗 学 习 40 253 


深度 生成 对 抗 网 络 给 我 们 带 来 的 最 大 的 启发 ， 我 感觉 还 是 这 种 研究 方式 本 身 、 这 种 思 
路 。 在 两 个 矛盾 模型 的 对 抗 中 使 得 两 者 都 有 很 好 的 表现 ， 从 而 达到 一 个 全 局 的 最 优 状 态 。 
这 让 我 们 有 了 很 多 的 想象 ， 以 后 或 许可 以 考虑 用 它 来 做 一 些 其 他 应 用 中 的 对 抗 模 型 。 例 如 
垃圾 邮件 生成 和 反 垃 圾 邮件 、 写 稿 机 器 人 和 甄别 机 器 生成 稿件 的 机 器 人 、 活 体检 测 伪装 机 
器 人 和 反 活 体检 测 伪装 机 器 人 等 ， 这 些 或 许 都 是 可 以 期 待 的 领域 。 

还 是 那 句 话 ， 深 度 生 成 对 抗 网 络 是 个 比较 新 的 研究 范畴 ， 未 来 能 够 应 用 于 什么 场合 还 
很 难说 。 虽 然 现在 已 经 有 了 一 些 “ 成 果 ”， 但 这 些 成 果 离 真正 的 商用 还 是 有 一 段 差距 的 。 就 
刚刚 的 这 个 DCGAN 的 例子 来 说 ， 虽 然 在 实验 中 ， 那 些 图 片 被 “高 质量 ”地 还 原 了 ， 可 是 
在 人 眼看 来 这 些 图 片 仍然 怪 怪 的 ， 还 不 能 商用 。 所 以 说 在 这 个 领域 的 研究 还 差 得 很 远 ， 大 
家 感 兴趣 就 多 多 努力 研究 吧 。 
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有 趣 的 深度 学 习 应 用 


在 深度 学 习 技 术 不 成 熟 的 年 代 很 多 研究 机 构 都 是 用 什么 SVM (支持 向 量 机) 呀 ， 什 么 
KNN (K Nearest Neighbors) 算法 ， 等 等 。 现 在 是 鸟 枪 换 炮 了 ， 现 在 计算 机 的 计算 能 力 和 
十 几 年 前 绝对 不 可 同日 而 语 ， 所 以 大 规模 神经 网 络 的 应 用 就 可 以 在 人 脸 识别 领域 得 到 实现 。 
不 仅仅 是 网 上 追 逃 ,包括 安防 监控 领域 的 监测 应 用 ， 网 上 银行 的 无 人 值守 窗口 活体 检测 ， 
甚至 包括 娱乐 性 的 应 用 ， 都 有 着 非常 好 的 落地 实例 。 这 
些 大 量 代替 人 类 繁琐 劳动 的 工程 在 现实 业务 中 获取 了 极 
大 的 剩余 价值 ， 也 吸引 着 一 批 又 一 批 的 工程 技术 人 员 不 
断 研究 。 


13.1 人 脸 识别 


人 脸 识 别 也 是 现在 非常 火 的 一 个 领域 ,除了 测 颜 值 
软件 、 测 年 龄 软件 这 种 “玩具 ”以 外 ， 在 安防 监控 、 金 
融 等 多 个 领域 都 有 应 用 。 

有 关 人 脸 识别 的 研究 其 实 也 是 由 来 已 入 ， 在 我 上 大 
学 的 时 候 就 听 说 过 有 一 些 研究 机 构 在 尝试 做 人 脸 检 测 相 
关 的 研究 。 主 要 是 做 个 体 识别 ， 并 想 办 法 将 它 应 用 到 网 


评分 详情 


上 追 逃 ( 抓 捕 逃犯 ) 或 相关 领域 去 。 юп NH. AFHARO TERM? 
说 起 来 ， 人 脸 识 别 这 个 词汇 其 实 有 多 重 的 含义 ， 而 
各 个 含义 确实 侧重 不 同 ， 在 落地 时 看 到 的 场景 也 不 一 样 。 
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有 的 软件 可 以 找 出 图 中 所 有 的 人 脸 ， 有 的 则 可 以 识别 出 多 幅 图 中 相同 的 人 。 还 有 的 可 能 是 
输入 一 个 人 的 照片 ， 让 机 器 在 数据 库 里 查找 他 究竟 是 谁 ， 这 些 都 算 人 脸 识别 这 个 大 范畴 下 
的 不 同 侧面 。 


对 该 图 片 的 最 佳 猜测 : BA ER 识 因 效果 不 好 ? HENA ХИНЕН HE ^_^ 
BAR : 220X220 


езж 
mens 


RR PEM 

生日 ; 1968 年 3 月 25 日 : 美国 

简介 aan) ашай TF, 19689825 
日 出 生 于 商 加 去 夕 法 尼 亚 州 次 城 。 娄 12 关 对 以 说 哩 .… 至 看 详情 > 
Баке. Бади. 





不 论 是 哪 一 种 应 用 ， 几 乎 都 分 不 开 这 样 几 个 步骤 的 工作 。 

第 一 ， 人 脸 检测 (face detection) 

这 个 部 分 工作 就 是 在 输入 的 图 片 中 查找 有 没有 人 脸 并 找到 人 脸 所 在 的 位 置 。 当 然 ， 用 
方 框 标 出 ， 以 及 数 一 下 有 几 个 人 脸 ， 这些 问题 自然 不 在 话 下 。 

第 二 ， 人 脸 跟踪 (face tracking) 

这 个 做 的 就 是 要 “跟踪 ”人 脸 了 ， 不 过 这 个 跟踪 可 不 仅仅 是 人 脸 在 图 片 中 发 生 移动 能 
识别 这 么 简单 ， 它 通常 是 针对 一 个 视频 流 ， 在 这 个 视频 流 中 实时 捕 提 到 这 个 人 脸 上 主要 特 
征 点 的 位 置 。 这 样 就 能 得 到 一 个 内 容 比较 丰富 的 、 立 体 的 人 脸 信 息 。 也 能 够 从 中 识别 出 表 
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情 上 的 细腻 变化 。 





第 三 ， 人 脸 识别 (face identification, face recognition) 
简单 说 就 是 认 出 谁 是 谁 ， 大 概 用 得 比较 多 的 场景 就 是 身份 认证 了 。 





- y st, Lad 


无 论 这 个 是 什么 表情 ， 戴 不 戴 眼 镜 ， 或 者 是 脸 有 点 侧 ， 光 线 昏 暗 与 否 ， 甚 至 是 年 龄 有 
了 变化 也 能 够 认 出 来 。 这 个 的 难度 应 该 是 这 三 种 小 任务 里 面 最 难 的 一 种 了 。 

这 几 种 任务 远 在 深度 学 习 走 红 之 前 就 一 直 有 人 在 研究 ， 当 然 是 用 传统 的 机 器 学 习 、 基 
于 图 像 数 字 和 矩阵 的 特征 提取 等 各 种 方法 。 

今天 我 们 说 说 关于 使 用 深度 学 习 做 人 脸 识别 的 一 些 基 本 思路 吧 。 首 先 ， 我 们 参考 谷歌 
的 那 篇 著名 论文 《 FaceNet: A Unified Embedding for Face Recognition and Clustering 》。 在 
这 篇 论文 中 提 到 ， 使 用 论文 中 所 使 用 的 网 络 结构 进行 人 脸 识别 的 话 可 以 在 LFW (Labeled 
Faces in the Wild) 数据 集 上 有 高 达 99.63% 的 准确 率 ， 这 个 准确 率 确实 相当 高 。 在 YouTube 
网 站 的 人 脸 数 据 库 中 ， 这 个 指标 也 能 高 达 95.12%， 应 该 说 表现 还 是 非常 不 错 的 。 

在 这 篇 论文 中 ， 他 们 定义 了 一 个 三 位 一 体 的 人 脸 识别 系统 ， 可 以 识别 是 否 为 同一 个 人 ， 
认 出 这 个 人 是 谁 ， 并 且 在 多 个 人 脸 图 片 中 找到 这 个 人 。 方 法 就 是 使 用 深度 卷 积 网 络 来 学 习 
每 张 图 片 中 的 Euclidean embedding 一 一 我 们 可 以 理解 成 为 一 种 脸 部 的 几何 特征 ， 然后 使 
得 相同 人 的 脸 部 几何 特征 之 间 的 欧 氏 距离 最 小 ， 而 不 同人 的 脸 部 几何 特征 之 间 的 距离 最 大 。 


Ө 没有 找到 很 确切 的 中 文 翻译 ， 权 且 翻译 成 为 “欧式 几何 嵌入 ” 吧 。 
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这 个 就 是 最 终 的 原则 了 。 只 要 这 种 提取 的 方式 确定 ， 那 么 就 可 以 生成 这 种 表示 脸 部 几何 特 


征 的 几何 向 量 ， 然 后 就 转化 成 了 k-NN 问题 。 
© ЕЗ 


整个 网 络 的 结构 有 这 样 几 个 部 分 : 一 个 是 Batch Input ( 批 输入 层 ) ; 男 一 个 是 带 有 一 
个 L2 正则 化 项 的 深度 CNN 网 络 ， 这 一 层 的 输出 就 已 经 是 面部 特征 化 向 量 了 ; 最 后 是 一 个 
Triplet Loss 函数 ， 充 当 损 失 函 数 。 别 看 这 个 网 络 这 么 多 层 ， 但 是 前 面 这 些 都 不 用 解释 ， 因 
为 我 们 都 见 过 了 ， 没 什么 新 鲜 的 。 批 输入 层 一 一 跟 普 通 的 Batch 没什么 区 别 ; 深度 CNN 网 
络 也 跟 以 前 见 过 的 CNN 没什么 太 大 区 别 ， 里 面 的 卷 积 核 的 w 是 我 们 训练 要 得 到 的 东西 ; L2 
正则 化 项 也 是 我 们 接触 过 的 ， 主 要 是 防止 过 拟 合 ; 没 见 过 的 就 是 Triplet Loss 损失 函数 。 





Oz-—-guUmuztm 


Negative Negative 
Anchor LEARNING 


2 Anchor 2. 
Positive Positive 


Triplet 的 含义 是 “三 个 一 组 ”的 意思 ， 这 里 指 的 就 是 这 样 一 个 关系 : Anchor Chis] Tit), 
Negative ( 负 向 量 )、Positive ( 正 向 量 )。 根 据 损失 函数 一 般 定 义 的 习惯 我 们 都 能 猜 出 来 ， 就 
是 定义 锚 向 量 距 离 正 向 量 的 距离 越 远 则 损失 越 大 ， 距 离 负 向 量 的 距离 越 近 则 损失 越 大 。 然 
后 通过 Loss 对 各 个 w 求 偏 导 数 来 决定 挪 多 少 并 一 次 一 次 地 挪 ， 从 而 找到 满足 损失 尽 可 能 小 
的 w…… 此 处 可 以 省 上 2000 字 了 。 

我 们 就 假定 整个 图 片 x 到 embedding 向 量 的 映射 关系 为 x 一 f(x)， 那 么 损失 函数 就 可 以 
写作 : 


N 
Loss= УО) РОР) 1) РОВ +а] 


ЖР х 就 是 指 一 张 锚 样本 图 片 ， 某 个 确定 的 人 ， 比 如 威 尔 史密斯 ; х/ 是 正 向 量 的 图 片 ， 就 
是 其 他 的 某 张 威 尔 史密斯 的 图 片 ， 志 就 是 非 威 尔 史密斯 的 图 片 。 公 式 里 这 种 写法 表示 模 的 
平方 ， 其 实 就 是 用 类 似 “多 维 勾 股 定理 ”的 方式 来 求 空间 距离 。 这 个 a 是 一 个 强化 值 ， 用 
来 强化 正 负 样本 向 量 之 间 的 差距 。 


Ө 邻近 算法 ， 或 者 说 K 最 近邻 (KNN，k-NearestNeighbor) 分 类 算法 是 数据 挖 气 分 类 技术 中 最 简单 的 方法 之 一 。 
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55x55x64 
55x55x64 
55x55x64 
55x55x192 
55x55x192 
28x28x192 
28x28x192 | 3 
28x 28x384 
14x14x384 
14x 14x384 
14x 14x 256 
14x 14x 256 
1414x256 
14x 14x 256 


1x1x128 
1x1x128 





网 络 结构 也 列 出 来 了 ， 里 面 的 权 值 就 是 我 们 训练 最 后 要 的 结果 。 

这 个 项 目的 源 代码 位 置 我 们 也 给 出 来 ，https://github.com/davidsandberg/facenet， 是 用 
TensorFlow 写 的 ， 大 家 可 以 下 载 来 自己 玩 。LFW 数据 集 的 位 置 在 http://vis-www.cs.umass. 
edu/lfw/。 





不 过 如 果 你 想 要 识别 一 些 LFW 数据 集 以 外 的 人 物 ， 比 如 国内 的 影星 …… 那 就 不 好 使 
了 ， 虽 然 我 知道 肯定 有 不 少 朋 友 想 这 样 做 。 因 为 数据 集 里 没有 ， 如 果 你 要 做 的 话 只 能 自己 
收集 图 片 数据 ， 自 己 来 做 数据 的 前 期 整理 。 这 成 本 搞 不 好 比 买 8 通道 的 GPU 服务 器 还 要 
贵 得 多 。 不 过 笔者 也 曾 见 过 一 些 朋 友 用 了 一 些 非 公 开 的 人 脸 数 据 库 来 做 训练 ， 效 果 也 不 
错 。 如 果 你 觉得 玩 得 不 过 瘾 ， 还 可 以 选择 其 他 一 些 人 脸 数 据 库 ， 例 如 CelebA， 官 网 位 置 
在 http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html ; 或 者 CASIA， 官 网 位 置 在 http://www. 
cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html。 总 体 来 说 目前 亚洲 人 脸 的 数据 库 资源 
还 是 比较 缺乏 的 ,但 愿 成 熟 的 世界 各 种 族 的 人 脸 数 据 库 能 够 早日 建 起 来 吧 。 
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总 之 ， rata i pira a at - 些 思路 上 的 营养 ， 深 度 学 习 到 目前 为 止 


的 检测 类 的 任务 ， SALAM AER SERRE ARE. 这 一 点 大 家 一 定 注 意 ， 算 
法 和 模型 只 是 工作 中 的 一 部 分 内 容 ， 还 有 相当 部 分 的 内 容 贡 献 是 由 样本 提供 的 。 


13.2 {Еш 


作 诗 姬 一 一 这 个 “ 姬 ”的 叫 法 应 该 是 从 那 部 著名 的 烧 脑 电影 《机 械 姬 》” 中 延伸 过 来 的 
下 图 是 《机 械 姬 》 这 部 电影 的 海报 ， 虽 ОТЕРИ 
个 人 都 不 好 了 ， 感 觉 世界 有 一 天 会 被 机 器 人 玩 坏 ， 但 我 一 直 很 乐观 ， 我 觉得 这 一 天 …… 估 


计 我 的 有 生 之 年 看 不 到 。 好 了 ， 开 个 小 玩笑 我 们 来 看 作 诗 姬 究竟 是 个 什么 玩意 儿 。 


BLU-RAY + DIGITAL HD 


ех тасніпа 





ЕРЮ A EON АА, FEX УРЕ Э А RR th, EA АЛЕ 
研究 了 。 就 单 从 数学 模型 角度 来 说 ， 作 诗 姬 应 该 属于 隐 马 尔 可 夫 模 型 的 变种 。 

所 谓 隐 马 尔 可 夫 模 型 HMM 在 前 面 我 们 用 简短 的 篇 幅 介绍 过 ， 就 是 从 时 间 序 列 的 随机 
事件 中 去 统计 前 后 状态 的 转化 概率 。 这 种 模型 在 NLP 领域 应 用 是 非常 广泛 的 ， 在 作 诗 姬 这 
种 玩具 中 也 少不了 Емиш. 

遇 到 这 种 命题 ， 首 先 应 该 想到 的 是 使 用 RNN 模型 (LSTM) 来 进行 训练 。 因 为 RNN А. 
有 一 种 天 天 生 就 最 适合 拟 合 隐 马 尔 可 夫 模 型 的 构造 ， 所 以 这 个 大 的 思路 应 该 是 没有 什么 问题 
的 。 可 是 ， 中 文 有 中 文 的 特点 ， 而 且 中 文 当 中 有 一 些 令 我 们 中 国人 最 自豪 、 最 优美 的 韵律 
感 ， 同 时 也 是 我 们 自己 在 尝试 写 诗 的 过 程 中 最 不 好 把 握 的 东西 一 FAA. ра SAR RT 
夫 模 型 可 以 统计 出 来 在 一 个 字 后 面 出 现 另 一 个 字 是 多 大 概率 ， 而 且 可 以 有 一 定 自 由 度 地 选 





Ө Ех Machina， 讲 述 了 老板 邀请 员工 到 别墅 对 智能 机 器 人 进行 “图 灵 测 试 ”的 故事 ， 于 2015 年 1 А 21 H fe 
国 上 映 
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ВА Е Р В — п PRA IRA SE, AMIR Е — А85 — 
个 字 确 定 后 ， 后 面 整个 诗 文理 论 上 就 是 全 部 确定 的 ; 也 可 以 按照 概率 从 大 到 小 排列 ， 用 概 
率 的 比例 去 生成 一 个 “不 均匀 的 骨 子 "， 使 得 下 一 个 字 的 产生 有 一 定 变 化 。 


相思 
Missing You 
红豆 生 南国 , (*ZPPZ) 
Red berries born in the warm southland. 
春来 发 几 枝 ? (PPZZP) 


How many branches flush in the spring? 
IB ZR, (*PPZZ) 
Take home an armful, for my sake, 
此 物 最 相思 。(*ZZPP) 

As a symbol of our love. 





用 隐 马 尔 可 夫 模 型 生成 字 的 时 候 ， 选 择 概率 较 大 的 字 出 现 的 目的 是 为 了 让 语句 更 为 通 
畅 ， 因 为 两 个 字 有 较 大 概率 紧邻 出 现 的 话 ， 大 多 是 因为 它们 是 一 个 词 ， 或 者 在 单字 词 盛行 的 
古诗 文中 至 少 是 词组 或 者 常用 短语 。 例 如 “红颜 "、“ 春 光 ”、“ 山 河 "、“ 相 送 ” 等 。 而 概率 小 
的 邻接 字 含 义 很 可 能 表示 的 是 这 两 个 字 从 来 没有 前 后 脚 出 现 过， 或 者 偶尔 出 现 过 那么 一 两 次 ， 
还 是 一 个 属于 前 面 的 词尾 ， 一 个 属于 后 面 的 词 头 的 情况 ， 那 如 果 采 用 的 话 自然 是 狗屁 不 通 。 


First line 
generation 


Next line 
generation 





光 是 用 隐 马 尔 可 夫 模 型 去 统计 还 是 不 够 的 ， 要 生成 一 个 有 一 定 “ 含 义 ” 的 诗 文 是 需要 
有 一 定 的 意境 和 惯用 词汇 的 。 为 此 ， 有 这 样 一 本 书 作为 辞典 备用 ， 叫 做 《 诗 学 含 英 》9 ， 京 
东 上 找 不 到 这 本 书 ， 这 么 偏 门 小 众 的 书 还 是 求助 万 能 的 淘宝 吧 。 由 于 在 五 绝 和 七 绝 这 样 的 
诗 律 中 是 讲究 押 前 和 平 大 工整 的 ， 所 以 第 二 三 四 句 实 际 上 是 根据 第 一 句 来 生成 的 ， 它 们 的 


Ө 是 清 代 刘 文 昔 根据 《 增 广 诗韵 全 壁 》 一 书 所 附 《 诗 学 含 英 》 创 作 的 一 本 书籍 。 收 集 了 《声韵 启 壹 久 《 训 壹 
骆 句 》 和 《等 翁 对 韵 》 三 本 训练 对 偶 技巧 、 声 前 格律 的 工具 书 。 按 韵 分 部 ， 包 罗 天 文 地 理 、 花 木 鸟 兽 、 人 
物 器 物 等 的 虚实 应 对 。 从 单字 到 双 字 、 三 字 对 、 五 字 对 、 七 字 对 到 十 一 字 对 ， 节 奏 明 快 、 琅 琅 上 口 ， 从 中 
可 得 语音 、 修 辞 的 训练 。 此 书 内 容 皆 招 撤 珍 藉 ， 采 其 工 丽 典雅 者 ， 每 节 由 二 字 递 增 至 五 字 为 对 句 ， 分 门 别 
Ж, 天文、 时 令 、 节 序 、 地 与 、 楼 馆 、 人 伦 、 文 学 、 游 胱 、 饮 食 、 器 用 、 花 草 、 竹 木 、 飞 禽 、 走 兽 …… 英 
不 一 一 网 罗 ， 诚 为 诗词 学 者 必 备 之 工具 书 ， 对 律诗 对 仗 更 具 参 考 价值 。 
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生成 要 在 规则 上 与 第 一 句 呼应 。 那 么 就 要 先 重点 生成 第 一 句 ， 再 一 句 一 句 按照 规则 去 生成 
其 余 的 句子 。 


E ocasu abies TORR BAe чазын лу, ime 二 
先 给 定 一 些 Keywords， 也 就 是 关键 词 ， 作 为 这 首 诗 的 梗概 、 要 义 、 主 题 ， 再 到 《 诗 学 
含 英 》 中 去 寻找 相关 语汇 。 这 样 会 找到 一 些 备 选 词 (candidate lines)， 根 据 这 些 词汇 生成 所 
有 可 能 的 排列 ， 并 且 挑 选 一 个 最 为 合适 的 充当 第 一 句 。 就 是 满足 下 面 的 这 个 等 式 最 大 化 。 





т-1 
P( Sy | Su) =] [P(r Ss) 
j=l 


看 上 去 又 挺 吓人 的 ， 其 实 又 是 连 乘 形 式 ， 是 一 系列 概率 的 连 乘 形式 ; 最 大 化 的 意思 就 是 这 
些 挑 出 来 的 备 选 词 在 我 们 统计 的 隐 马 尔 可 夫 模型 里 究竟 是 怎么 排列 最 顺 溜 ， 也 就 是 一 句 话 
组 成 的 最 大 似 然 度 的 白话 解释 。 






1-of-N encoding of |@ кем 


»=(0,...,.. 0) 







Pwal Pip Si) 


hl, ө 
d wk» ji 


下 面 要 出 场 的 是 这 么 个 听 着 很 高 科技 其 实 内 容 很 普通 的 东西 ， 一 个 叫 CSM ( convolu- 
tional sentence model， 卷 积 句子 模型 )， 一 个 叫 RCM (recurrent context model， 递 归 内 容 模 
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型 )， 还 有 一 个 叫 RGM (recurrent generation model， 循 环 生成 模型 ) 。 
v, = СА$М (5,) 
u! = RCM (vy, j) 


P(w Wr | Wiys $,)- RG M (v, ur ) 
CSM 把 一 个 句子 输入 Si 变 成 一 个 向 量 v, RCM 将 输入 的 i 个 句子 向 量 v 到 w， 并 为 
RGM 模型 输出 一 些 内 容 作为 RGM 的 输入 。 而 RGM 用 来 评估 整个 P(w,,|w,，S\) 表达 式 的 
概率 大 小 。 





959% 


ж 看 瀑 布 挂 前 Jil 
Far off I watch the waterfall plunge to the long river. 





先 说 CSM， 当 一 个 句子 生成 后 ， 就 需要 使 用 一 个 一 个 的 矩阵 经 过 多 层 的 “乘积 ”方式 
来 进行 合并 ， 最 后 输出 为 一 个 代表 其 特征 的 向 量 w。 如 图 所 示 ， 如 果 是 七 言 绝句 ， 那 么 就 
需要 CU. CU. CU, Ch 3 来 做 向 量 的 “合并 ”操作 。 如 果 是 五 言 绝句 的 情况 下 ， 那 就 只 需 
要 c. с 09 —A BERE T. 

RCM 处 理 逻 辑 也 很 简单 ; 


h=0 


М) 


uj =o(U,-h,), 1<j<m-1 
第 一 个 输入 的 h 初始 化 为 0 就 OK Т, HRS А МЕШ Б АШ v, 以 
及 前 一 次 产生 的 拟 合 值 六 -做 个 矩阵 内 积 ， 然 后 通过 Sigmoid 函数 处 理 。U, 是 个 用 来 对 包 
做 decode 的 矩阵 。 这 个 部 分 用 来 做 上 下 文 相关 的 特征 提取 。 
RGM 就 是 用 来 评估 P(w,,.|w,., S) 这 个 概率 的 ， 用 的 是 很 中 规 中 矩 的 SOFTMAX。 
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CPO pak) 
exp(y,,; , k) 
i=l 


由 于 内 容 片段 都 是 从 《 诗 学 含 英 》 中 挑选 出 来 的 ， 又 经 过 了 若干 次 调整 理 顺 的 过 程 ， 
这 样 生成 的 内 容 就 会 相对 比较 通顺 。 这 里 还 是 有 一 些 不 好 克服 的 问题 ， 比 如 平凡 和 韵律 。 
平 下 就 不 用 说 了 ， 把 平 天 规则 做 进去 的 话 ， 就 需要 建立 相应 的 限制 条 件 ， 在 生成 的 语句 中 
进行 过 滤 ， 只 留 下 那些 符合 的 ， 当 然后 果 就 是 可 能 那些 尚且 通顺 的 句子 被 滤 掉 了 ， 却 留 下 
了 一 些 不 大 通顺 的 例子 ; 而 韵律 方面 也 是 做 了 一 个 Trick 一 一 就 是 只 让 二 、 四 两 句 押韵 ,在 
生成 的 过 程 中 会 生成 不 止 一 个 第 二 句 ， 不 止 一 个 第 四 句 ， 让 它们 充当 候选 集 ， 然 后 过 滤 掉 
那些 不 押韵 的 ， 而 只 输出 押 韵 的 。 


P(w =k| wu) =H 


ЖЖ уу, 满怀 风月 一 枝 春 ， 
Egrets stood, peeping fishes. Budding branches are full of romance. 
青山 照 水 开 。 未 见 梅花 亦 可 人 。 


Water was still, reflecting mountains. | Plum blossoms are invisible but adorable. 


夜来 风 不 动 ， 不 为 东风 无 此 客 ， 

The wind went down by nightgfall, With the east wind comes Spring. 
明月 见 楼 台 。 世间 何 处 是 前 身 。 

as the moon came up by the tower. Where on earth do I come from? 





这 篇 论文 的 位 置 在 : http:Waclweb.org/anthology/D/D14/D14-1074.pdf， 也 有 对 应 的 代码 ， 
位 置 在 ;https:Wgithub.com/XingxingZhang/rnnpg。 比 较 遗 憾 的 是 这 套 代 码 不 是 TensorFlow 
的 ， 代 码 里 有 C++, A Java， 有 Python， 混搭 得 很 齐全 ， 你 会 觉得 前 面谈 了 这 么 多 RNN 
相关 的 理论 概念 ， 然 后 突然 在 这 里 用 了 一 个 “ 假 网 络 ”。 嗯 ， 好 取 ， 如 果 大 家 觉得 它 做 得 
还 比较 Low Wik (事实 上 我 也 觉得 它 做 得 确实 比较 Low)， 那 么 就 试 着 自己 把 它 改 成 一 个 
TensorFlow 版 本 的 玩 玩 吧 。 大 家 请 注意 ， 这 个 工程 是 需要 下 载 一 个 叫做 MISC.tarbz2 的 文 
件 的 ， 这 里 有 所 有 的 平 太 和 韵脚 的 相关 文字 ， 用 来 做 过 滤 用 的 。 

网 上 现在 也 有 一 些 其 他 的 产品 可 以 生成 类 似 的 结果 ， 比 如 稻 香 居 作 诗 机 ， 虽 然 笔者 不 
确定 它 百 分 之 百 是 使 用 RNN 抑或 其 变种 来 制作 的 。 当 然 ， 作 诗 机 本 来 也 可 以 不 用 RNN 来 
做 ， 就 用 基于 统计 的 隐 马 尔 可 夫 模 型 加 “ 查 字 典 ” 过 滤 的 方式 一 样 能 够 生成 。 


自由 作 诗 结果 : 自由 作 诗 结果 : 
命题 成 功 。 命题 成 功 ， 
Ge» CER) 
uec. Л ERE. RMR, AERE. 
FAMEGR A. БАРИТЕ. BEZTA. DARA. 
结果 ， 存在 BN 的 词汇 无 法 生成 正确 的 关联 。 您 可 以 返回 再 试 几 次 。 结果 ， 存 在 的 词汇 无 法 生成 正确 的 关联 ， 您 可 以 返回 再 试 几 次 。 Ө 


Ө 内 容 来 自 于 稻 香 居 作 诗 机 http://www.poeming.com/。 
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如 果 你 在 想 给 妹子 写 个 有 她 名 字 的 藏 头 诗 而 搜 肠 刊 肝 难 以 思考 的 时 候 ， 估 计 它 …… 别 ， 


也 帮 不 上 什么 忙 ， 你 需要 重新 写 -一 个 有 藏 头 功能 的 作 -一 
诗 姬 。 反 正 算法 的 本 质 在 基本 理解 之 后 ， 自 由 发 挥 的 ( e 
空间 就 有 了 。 x 


我 想 可 能 你 也 发 现 了 ， 这 些 诗 文 虽然 听 起 来 文 络 
络 的 ， 而 且 用 词 比较 雅致 。 但 是 叙事 的 连贯 性 、 意 境 
这 些 东西 跟 人 作 的 诗 还 是 远 没 法 比 。 所 以 ， 这 些 东西 
当做 “玩具 ”应 该 还 是 比较 称职 的 ， 真 的 指望 它 帮 你 
搞定 妹子 …… 嗯 ,后果 自负 吧 。 





13.3 PEE 
在 本 书 的 最 后 放 一 个 我 认为 最 有 趣 的 例子 吧 ， 那 就 是 用 CNN 来 做 图 片 风格 变幻 。 
相信 不 少 读者 朋友 都 用 过 一 款 叫 做 Prisma 的 软件 ， 这 款 软件 在 当时 也 是 掀起 了 一 股 争 
相 使 用 的 热潮 。 
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这 个 App 的 用 法 很 简单 ， 可 以 用 一 张 原始 的 照片 到 加 一 个 绘画 界 大 师 的 照片 风格 ,使 
得 原来 的 照片 宛如 大 师 所 画 一 样 。 选 哪 位 大 师 的 作品 ， 就 能 对 应 附加 哪 副 名 画 的 风格 。 应 
该 说 在 当时 还 是 确实 引发 了 小 小 的 麦 动 的 。 

首先 可 以 明确 地 告诉 大 家 ， 在 网 上 查阅 论文 你 可 以 发 现 ， 做 类 似 的 事情 其 实 不 止 一 种 
方法 ， 也 绝 不 仅仅 有 一 篇 论文 来 做 方法 分 析 。 笔 者 认为 最 为 经 典 的 应 该 是 李 飞 飞 ?老师 的 这 
篇 论文 《 Perceptual Losses for Real-Time Style Transfer and Super-Resolution 》， 笔 者 的 团队 
自己 在 尝试 做 Prisma 模拟 实现 的 时 候 也 是 参考 这 篇 论文 的 主要 内 容 ， 地 址 在 https://arxiv. 
org/pdf/1603.08155.pdf， 大 家 可 以 参阅 一 下 。 本 书 我 们 介绍 另外 一 种 更 容易 理解 的 方法 。 


13.3.1 网 络 结构 


先 说 论文 根据 ， 这 篇 论文 地 址 在 https:Warxiv.org/pdf1508.06576v2.pdf， 题 目 叫做 《 A 
Neural Algorithm of Artistic Style 》， 也 是 一 篇 很 经 典 的 关于 使 用 深度 学 习 的 方法 进行 图 片 风 
格 变换 的 算法 论述 。 





Ө 李 飞 飞 ， 女 ， 美 国 斯 坦 福 大 学 计算 机 科学 系 副教授 ， 深 度 学 习 与 人 工 智 能 界 的 著名 专家 ， 
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在 这 篇 论文 中 有 一 个 这 样 的 贴图 ， 给 我 们 展示 了 用 5 种 不 同 的 绘画 风格 分 别 应 用 于 一 
张 普通 的 风景 照 所 产生 的 不 同 效果 。 

A 是 一 张 拍 摄 下 来 的 普通 照片 ， 后 面 这 些 就 是 各 位 艺术 大 师 的 名 画作 品 及 其 风格 等 加 
在 该 图 片上 的 效果 了 。B 是 约瑟夫 : 玛 罗 德 . 威廉. 透 纳 的 《运输 船 遇难 》,C 图 是 林 高 的 《是 
к) 9, 还 有 D 是 蒙 克 的 《呐喊 》E 是 毕加索 的 《Femme nue assise) ©, F 是 瓦 西里 - ЖТ 
斯 基 的 《作品 7》。 说 实话 ， 第 一 次 见 到 这 篇 论文 的 时 候 还 真是 吓 了 我 一 跳 ， 因 为 还 真是 有 
点 神韵 在 里 面 多 少 给 我 一 些 感觉 :“ 嗯 ， 大 师 如 果 在 世 ， 夯 出 这 幅 作品 应 该 也 就 这 样 .” 

从 样子 上 来 看 ， 整 个 变化 的 过 程 是 保留 了 一 定 的 照片 内 容 ， 以 及 一 定 的 风格 图 的 风格 ， 
并 且 把 两 者 结合 到 一 起 。 所 以 在 处 理 的 过 程 中 其 实 就 是 要 让 生成 的 图 片 在 内 容 上 像 照 片 ， 
而 风格 上 像 大 师 的 杰作 。 

这 幅 流程 图 给 我 们 展示 了 两 张 图 进行 “混搭 ”的 过 程 ， 简 单 叙 述 一 下 就 是 这 样 一 个 情 
况 。 让 负责 提供 内 容 ( content) 的 照片 和 负责 提供 风格 (style) 的 两 张 图 同时 通过 一 个 卷 积 
网 络 。 在 这 个 工程 里 用 的 是 VGG-19 一 一 前 面 我 们 接触 过 它 的 “小 兄弟 ”VGG-16,，VGG-19 
除了 层 数 比 它 多 ， 没 有 太 多 值得 一 提 的 差别 。 





© The Starry Night， 也 译作 《星空 》. 
e 翻译 成 《 坐 着 的 裸女 》 
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Style  — Ki E ва - 


m" r3 r1 
ка і] 








Representations 


Ia T 


Convolutional Neural Network 


Input image 
Content 


| Representations 





Content 
Reconstructions 





| | depih-256 —— depth-512 depth-512 V нок 
depth-64 depth=128 3 x 3 conv 3x3 conv 3x3 conv FCI 
3x3 conv 3х3 сопу conv3 1 conv4 1 conv5 1 FC2 
conv] 1 conv2 1 conv3 2 conv4 2 conv5 2 size=1000 
convl 2 conv2 2 сопу3_3 сопу4_3 сопу5_3 айдай 
conv3_4 conv4 4 conv5 4 


在 通过 这 个 网 络 的 过 程 中 由 于 通过 卷 积 层 ， 所 以 会 一 层 一 层 产 生 更 小 尺寸 的 Feature fii 
述 信息 ， 也 就 是 我 们 平时 说 的 降 采 样 。 从 这 个 图 上 看 ， 19 个 卷 积 核 ，5 个 池 化 层 。 
整个 工作 分 成 两 个 部 分 ， 一 个 是 内 容重 建 (content reconstruction)， 一 个 是 风格 重建 (style 


reconstruction ) 。 


内 容重 建 从 convi 1. conv2 1、conv3_1、conv4_1、conv5_1 的 生成 结果 中 来 提取 。 
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而 风格 重建 的 内 容 则 是 来 源 于 不 同 卷 积 层 所 组 成 的 子 集 ， 这 些 子 集 分 别 为 ; 
Ч conl 1; 
QO convl 1 和 conv2 1; 


1 convl 1, conv2 1 fil conv3 1; 
О convl l, conv2 1、 conv3 1 fll сопу4 1; 
Q conv] l, сопу2 1、 conv3 l, conv4 1 和 conv5 1. 


在 实际 工作 中 ， 内 容重 建 的 信息 最 终 只 采纳 了 conv4_1 的 生成 结果 ， 也 就 是 让 图 片 直 
接 被 conv4_1 卷 了 一 遍 作 为 输出 结果 ; 而 风格 重建 的 信息 则 是 由 最 终 在 经 过 了 convl 1、 
conv2 l, conv3 1, conv4 1 和 conv5 1 后 的 生成 结果 来 描述 。 

请 注意 ， 这 里 的 VGG-19 不 是 随便 初始 化 的 ， 是 有 讲究 的 。 在 论文 里 提 到 ， 这 个 
VGG-19 是 被 预 训练 (pre-trained) 过 的 ， 在 《 ImageNet Large Scale Visual Recognition 
Challenge 》 这 篇 论文 中 提 到 的 就 是 用 VGG-19 去 做 图 片 分 类 。 我 们 可 以 粗略 地 理解 ， 在 这 
种 预 训练 下 ， 整 个 VGG-19 网 络 的 卷 积 核 会 对 一 个 图 片 的 轮廓 线条 的 刺激 以 及 颜色 刺激 更 
为 敏感 。 因 为 这 篇 论文 的 任务 是 对 图 片 做 分 类 ， 那 么 也 就 意味 着 如 果 要 使 得 图 片 通过 VGG- 
19 后 产生 好 的 分 类 效果 ， 那 么 它 内 部 不 同 层 上 的 卷 积 核 应 该 会 被 训练 成 能 够 提取 轮廓 和 颜 
色 这 些 关键 信息 的 ， 也 就 是 对 这 些 内 容 敏 感 。 

在 前 面 看 了 这 么 多 的 神经 网 络 后 我 们 得 到 一 个 经 验 ， 那 就 是 神经 网 络 的 训练 几乎 都 是 
按照 凸 优化 的 方式 来 进行 的 。 在 训练 的 过 程 中 ， 我 们 通过 不 断 更 新 网 络 中 不 同位 置 的 w 值 
来 让 损失 函数 向 极 小 值 点 移动 一 一 这 就 是 套路 。 那 么 这 个 网 络 中 怎么 设计 这 个 损失 函数 
呢 ? 先 上 一 个 结论 。 


Lua (р.а, x) = aL, (p. x) * BL, (a,x) 


这 里 的 pp 指 的 是 photograph, 就 是 照片 一 一 提供 内 容 的 图 片 ， 这 里 的 a 指 的 是 artwork, th, 
就 是 提供 风格 的 图 片 ， 而 这 个 工 就 是 最 终 的 输出 物 ， 一 个 既 拥有 万 的 内 容 又 拥有 了 风格 的 图 
片 ， 这 三 个 图 片 都 在 头 项 上 加 了 个 箭头 用 向 量 的 形式 表示 ， 因 为 图 片 输入 到 网 络 中 都 是 以 
向 量 的 方式 来 表示 的 。 

总 体 的 损失 Li Ps a, х) 由 两 个 部 分 贡献 : 一 个 是 aL. D. x ) — WA i35 RR 
或 者 叫 内 容 损 失 ; 一 个 是 11sou(a, x ) 一 一 风格 方面 的 差异 ， 或 者 叫 风格 损失 。 前 面 的 系数 
a 和 p 分 别 是 两 个 权重 系数 ， 也 就 表示 对 两 个 方面 差异 的 重视 程度 。 哪 一 个 设置 得 更 大 ， 则 
要 求 哪 一 个 方面 的 差距 越 小 ， 或 者 说 是 越 多 地 保留 照片 的 内 容 ， 还 是 越 多 地 保留 大 师 的 风 
格 。 那 么 下 面 就 来 阐释 一 下 Lou p, x ) He (а, x ) 分 别 是 如 何 计算 的 。 


13.3.2 内容 损失 


首先 ， 一 个 网 络 层 有 NW 个 不 同 的 卷 积 核 ， 那 么 就 对 应 有 N, 个 不 同 的 Feature Map。 每 
个 Feature Map 的 尺寸 分 别 为 M, M, 表示 出 来 就 是 一 个 Feature Map 的 长 x 宽 了 。 这 里 的 
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N 就 是 指 Number, M 就 是 指 Map， 小 写 的 1 角 标 指 的 是 Layer 的 序号 。 内 容 并 不 复杂 ， 只 
是 以 字母 出 现 确实 容易 把 人 绕 尝 。 

每 一 层 所 产生 的 内 容 (Feature), RIA Fr' 来 表示 ， 每 一 层 的 F' 尺寸 是 不 一 样 的 ， 简 
单 说 就 是 跟 该 层 的 卷 积 核 的 数量 IN" 与 每 个 卷 积 核 所 产生 的 Feature Map 尺寸 М, 的 乘积 相 
等 。 我 们 用 Еу 来 表示 这 个 卷 积 核 后 面 跟随 的 激励 函数 ，! 还 指 层 序号 ,i 表示 第 几 个 卷 积 核 ， 
7 表示 在 第 几 个 位 置 。 所 以 这 样 К 就 表示 具体 在 某 层 某 个 具体 位 置 产生 的 “像素 级 别 ” 的 
激励 值 了 。 

在 网 络 初始 化 之 后 ， 就 代入 p 和 x， 此 时 x 应 该 就 是 一 张 “ 白 纸 ”"， 学 术 一 点 的 方法 应 该 
叫 白 噪声 图 片 (white noise)。 这 时 候 ， 我 们 定义 另 一 个 内 容 P'。P' 和 F' 的 描述 几乎 是 一 样 
йй, 但 是 不 一 样 的 是 它们 各 自 产生 的 来 源 不 同 ，F' 是 由 x 产生 的 ,而 P' 是 由 p 产 生 的 。 


NL. 


Activation 
-a 
然后 在 各 层 上 面 产 生 的 内 容 损失 定义 为 : 
—- 1 2 
(р) 525 -R) 
也 就 是 指 每 个 “像素 级 别 ” 激 励 出 来 的 Feature 差异 做 了 一 个 平方 损失 ， 如 果 要 做 所 有 层 的 
加 和 ， 那 把 各 个 层 的 损失 加 到 一 起 就 可 以 了 ， 这 个 公式 中 只 给 了 某 一 个 层 的 。 
注意 下 面 这 个 地 方 是 这 个 模型 与 原来 “判定 型 ”模型 差别 最 大 的 地 方 。 原 来 的 “判定 型 " 
模型 是 定义 整个 网 络 最 终 输出 的 判定 标签 与 期 望 标 签 之 间 的 差异 一 一 无 论 是 交叉 炉 还 是 其 
他 数值 型 模型 ， 然 后 通过 求 出 250 来 通过 梯度 下 降 的 方式 找到 满足 差距 最 小 的 w， 这 个 学 
习 就 是 学 习 一 个 w 和 矩 阵 。 而 在 这 个 模型 中 ，w 初始 化 之 后 p 和 x 都 会 在 这 种 固定 的 w 下， 在 
不 同 的 层 上 产生 不 同 的 激励 结果 ， 最 终 的 目的 是 为 了 不 断 更 新 x 来 使 得 x 产生 的 激励 值 和 p 
产生 的 激励 值 尽 可 能 接近 ， 也 就 是 学 习 图 片 的 内 容 。 表 示 出 来 就 是 这 样 : 
a" . (F'-P).E»0 
a | » <0 





如 果 激 励 有 差距 ， 那 么 差距 就 是 两 个 激励 值 的 差 ， 如 果 没有 差距 ， 那 就 不 用 做 更 新 了 。 
这 个 函数 Lomen (Р, Xs!) 被 描述 成 了 由 确定 的 和 确定 的 F'， 以 及 待定 的 3 所 组 成 的 表达 式 ， 
或 者 干脆 写成 Lo (x*)， 下 面 就 是 迭代 更 新 x 让 它 变 得 在 内 容 上 和 越 来 越 像 。 如 果 你 不 加 
干涉 ， 就 这 样 学 习 的 话 ， 应 该 会 学 出 一 个 和 输入 照片 内 容 很 像 的 2:， 或 者 说 学 出 一 个 x 使 
得 和 x 对 VGG-19 网 络 的 刺激 很 相近 。 
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这 个 过 程 只 是 看 上 去 好 像 很 繁 珊 ， 但 是 并 不 复杂 ， 对 不 对 ? 好 ， 我 们 继续 。 


13.3.3 ”风格 损失 


说 完了 内 容 损 失 ， 再 说 一 下 风格 损失 ， 这 个 部 分 比 起 内 容 损失 略 显 复杂 ， 但 是 也 不 
算 难 。 
这 里 引入 一 个 概念 叫做 格拉 姆 矩阵 95 ， 这 东西 看 上 去 非常 像 笛 卡 尔 乘积 。 如 果 有 一 个 格 
拉 姆 矩阵 被 定义 为 一 系列 向 量 xen x, 的 空间 内 积 的 话 ， 可 以 记 作 G， (xx), RAER 
写作 : 
(эх) Qux) e xax) 


Gli puns, =| P3) Qm) e Qe) 


(х.х) (x,.%)) ез (x,,x,) 
接 下 来 我 们 就 用 格拉 姆 行列 式 来 定义 一 下 风格 的 描述 : 
G, - Y ,FF 


风格 是 一 种 非常 难以 名 状 的 东西 ， 直 到 现在 很 多 美术 老师 在 讲解 艺术 的 时 候 还 经 常 使 
用 “意境 "、“ 流 派 "、 “风骨 ”等 这 些 抽 象 的 连 人 类 理解 起 来 都 困难 的 词汇 去 描述 艺术 品 。 
当然 ， 这 也 是 艺术 品 最 特殊 的 地 方 ， 但 是 如 果 你 想 从 数据 科学 的 角度 去 给 它 更 多 的 解读 空 
间 ， 那 必须 进行 一 种 合理 的 量化 ， 在 这 里 我 们 看 到 了 一 种 量化 过 程 ， 而 且 不 排除 会 有 其 他 
的 量化 方式 也 能 很 好 地 完成 这 项 任务 。 

其 中 的 是 指 一 个 层 中 的 多 个 卷 积 核 形 成 的 Feature Map， 第 一 层 是 1 个 ， 第 五 层 是 5 
个 ， 这 个 在 刚才 的 VGG-19 结构 讲解 的 部 分 已 经 见 过 了 。 

那么 一 个 层 中 的 风格 描述 Gy SCR BI EPA EF 。 这 个 ЕНЕ, 就 是 刚才 说 的 
由 卷 积 核 生 成 的 Feature Map， 只 不 过 是 向 量化 的 ( vectorised)， 变 成 一 个 类 似 一 维 数组 的 
形状 。 那 么 Gy 是 一 个 矩阵 描述 ， 就 是 Feature Map 中 的 每 两 个 点 两 两 相 乘 所 形成 的 矩阵 。 
做 完 上 次 加 和 后 就 是 这 一 层 所 有 的 卷 积 核 各 自 提取 的 特征 所 形成 的 矩阵 的 纯 线 性 着 加 结果 。 

怎么 理解 这 样 一 个 风格 特征 提取 的 过 程 呢 ? 所 谓 风 格 主要 是 指 在 画面 上 表现 出 来 的 “着 
色 ”、“ 笔 触 “、“ 线 条 ”等 特性 。 这 些 特 性 不 是 依靠 一 个 点 来 描述 的 ， 而 是 一 系列 的 连续 点 
或 者 点 和 点 之 间 的 关系 才能 描述 得 比较 好 ， 所 以 使 用 两 两 相 乘 的 方式 实际 描述 了 任意 两 个 
点 之 间 的 关系 。 如 果 其 中 有 任何 一 个 是 0 的 话 ， 那 么 结果 仍旧 是 0， 两 者 都 不 为 0 的 时 候 产 
生 一 个 乘积 来 描述 。 可 以 粗略 理解 为 两 个 点 之 间 如 果 同 时 对 卷 积 核 产生 刺激 使 其 激活 ， 激 
活 值 越 大 的 则 表示 这 两 点 的 信息 对 描述 物体 的 形状 或 轮廓 、 内 容 越 有 效 。 


Ө Gram Matrix， 线 性 代数 中 的 概念 。 
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1 2 
E, “au 26 -4;) 


对 于 某 一 层 7 来 说 ， 它 的 风格 损失 函数 应 该 是 这 样 一 个 东西 。 其 中 为 是 由 a 产生 的 风 
НВ, Со 是 由 元 产生 的 风格 描述 。 每 个 点 的 值 做 差 的 平方 ， 再 加 和 来 描述 损失 。 前 面 的 


1 
тти 是 为 了 归 一 化 而 配 出 的 权重 。 如 果 没 有 这 个 部 分 的 话 ， 后 面 这 个 部 分 产生 的 差 会 非 


常 大 。 因 为 从 “ 量 纲 ” 的 角度 来 说 Gy 和 省 是 带 有 平方 项 的 ， 外 面 再 平方 对 于 最 原始 的 媚 来 
说 就 是 4 次 方 项 了 ， 所 以 前 面 除去 这 个 4 次 方 的 系数 比较 合适 。 


Гы (a. x) Ум 


在 这 个 风格 的 损失 函数 的 表达 式 中 ，L,w, (a,*) 中 的 风格 损失 用 每 一 层 的 风格 损失 分 别 
配 以 一 个 w 权重 来 指定 ， 在 这 个 工程 中 直接 写作 : 


1 
ae, _| gs (0-4) >0 
oF, 0 F'<0 
, D] 


这 个 时 候 使 用 的 方式 和 前 面 内 容 损失 的 部 分 是 几乎 一 样 的 ，Lw (as x) Sc Е RUE Logue (x), 
更 新 x 来 改变 的 值 。 


13.3.4 系数 比例 


关于 确定 公式 Li (p.a. x) e aL, (p. x) BL, (a, x) P а Al BAY SH INT WU # > e, 
貌似 没有 什么 好 的 科学 性 的 办 法 ， 只 能 是 根据 各 卷 积 层 的 输出 ， 通 过 肉眼 比较 来 确定 这 两 
个 值 怎么 取 。 





(ЖАШ) 
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alp 如 果 特 别 小 ， 说 明 更 为 重视 风格 方面 的 学 习 ， 生 成 出 来 的 图 会 更 多 保持 大 师 作 品 的 
风格 内 容 ; а/ 如 果 特 别 大 ， 说 明 更 为 重视 内 容 方面 的 学 习 ， 生 成 出 来 的 图 会 更 多 保持 照片 
原 有 的 内 容 信息 。 

从 图 上 来 看 ， 当 a/B8 在 10 ”的 时 候 几乎 看 不 出 任何 的 照片 本 身 所 携带 的 信息 ， 看 到 的 
是 大 师 那 出 神 人 化 的 、 狂 草 式 油 画 斑点 。 随 着 这 个 比值 增 大 ， 当 这 个 值 增 大 到 107 的 时 候 ， 
此 时 生成 的 图 片 在 内 容 方面 保留 了 足够 多 的 信息 ， 让 我 们 基本 能 够 辨识 出 原来 图 中 房屋 、 
河流 、 天 空 等 的 轮廓 ， 同 时 又 兼 有 大 师 着 色 的 特点 。 那 么 这 个 值 就 被 认为 是 一 个 比较 合适 
的 值 一 一 全 凭 肉眼 感觉 。 


13.3.5 ”代码 分 析 


GitHub 上 的 代码 在 https://github.com/anishathalye/neural-style， 文 件 目录 在 neural-style。 
核心 是 三 个 文件 ， 即 neural_style.py、stylize.py、vgg.py。 本 书 详细 讲解 前 2 个 。 
第 一 个 文件 neural_style.py 如 下 。 


1 # Copyright (с) 2015-2016 Anish Athalye. Released under GPLv3 . 


11 from argparse import ArgumentParser 
13 # default arguments 


14 CONTENT WEIGHT = 5e0 
15 STYLE WEIGHT = le2 
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TV_WEIGHT = 1е2 

LEARNING RATE = lel 

STYLE SCALE = 1.0 

ITERATIONS - 1000 

VGG PATH - 'imagenet-vgg-verydeep-19.mat' 


def main(): 
parser - build parser() 
options - parser.parse args() 


if not os.path.isfile(options.network): 
parser.error("Network $s does not exist. (Did you forget to download it?)" 
$ options.network) 


content image - imread(options.content) 
style images - [imread(style) for style in options.styles] 


width = options.width 

if width is not None: 

new Shape - (int(math.floor(float(content image.shape[0]) / 
content image.shape[1] * width)), width) 

content image - scipy.misc.imresize(content image, new shape) 
target shape - content image.shape 
for i in range(len(style images)): 
style scale = STYLE SCALE 

if options.style scales is not None: 
style scale - options.style scales[i] 
style images[i] = scipy.misc.imresize(style images[il, style scale * 
target shape[1] / style images[i].shape[1]) 


Style blend weights - options.style blend weights 

if style blend weights is None: 

# default is equal weights 

Style blend weights - [1.0/len(style images) for in style images] 
else: 

total blend weight - sum(style blend weights) 

style blend weights - [weight/total blend weight 

for weight in style blend weights] 


initial = options.initial 
if initial is not None: 
initial = scipy.misc.imresize(imread(initial), content image.shape[:21) 


if options.checkpoint output and "$s" not in options.checkpoint output: 


parser.error("To save intermediate images, the checkpoint output " 
"parameter must contain ^$s' (e.g. "foots.jpg )") 
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118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
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134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 


156 fF, 


for iteration, image in stylize( 
network=options.network, 

initial=initial, 

content=content_image, 
styles=style_images, 
iterations=options.iterations, 

content weight-options.content weight, 
style weight-options.style weight, 

Style blend weights-style blend weights, 
tv weight-options.tv weight, 

learning rate-options.learning rate, 

print iterations-options.print iterations, 
checkpoint iterations-options.checkpoint iterations 
): 

output file = None 

if iteration is not None: 

if options.checkpoint output: 

output file - options.checkpoint output $ iteration 
else: 

output file = options.output 

if output file: 

imsave(output file, image) 


def imread (path): 

img = scipy.misc.imread (path) .astype (np.float) 
if len(img.shape) == 2: 

# grayscale 

img = np.dstack((img,img, img) ) 

return img 


def imsave(path, img): 
img = np.clip(img, 0, 255).astype(np.uint8) 
Scipy.misc.imsave(path, img) 


if name  -- ' main ': 
main() 
程序 开始 执行 。 


79 ~ 80 行 ， 解 析 命 令 行 参数 。 

86 行 ， 读 content 图 片 。 

87 行 ， 读 style 图 片 ， 可 以 有 多 个 。 

88 ~ 93 行 ， 看 是 否 需 要 缩放 content 图 片 。 
94 ~ 99 行 ， 看 是 否 需要 缩放 style 图 片 。 


101 ~ 107 行 ， 初 始 化 style_blend_weights， 设 置 每 张 style 图 片 权重 。 
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108 一 110 行 ， 提 不 提供 初始 化 图 片 。 

118 ~ 139 行 ,训练 循环 ， 保 存 训练 文件 。 
142 ~ 147 行 ， 读 图 片 。 

150 ~ 152 行 ,保存 图 片 。 

14 一 19 行 ， 定 义 网 络 训练 参数 。 

20 行 ， 预 先 训练 好 的 vgg 网 络 。 
第 二 个 文件 stylize.py 如 下 。 


1 # Copyright (с) 2015-2016 Anish Athalye. Released under GPLV3 . 
10 CONTENT_LAYER = 'relu4 2' 
11 STYLE LAYERS = ('relul 1', 'relu2 1', ‘relu3_1', 'relu4 1', 'relu5 1!) 


14 try: 

15 reduce 

16 except NameError: 

17 from functools import reduce 


20 def stylize(network, initial, content, styles, iterations, 

21 content weight, style weight, style blend weights, tv weight, 

22 learning rate, print iterations-None, checkpoint iterations-None): 
32 shape = (1,) + content.shape х 

33 style_shapes = [(1,) + style.shape for style іп styles] 

34 content features = {} 

35 style features = [{} for _ in styles] 


37 # compute content features in feedforward mode 

38 д = tf.Graph() 

39 with g.as default(), g.device('/cpu:0'), tf.Session() as sess: 
40 image = tf.placeholder('float', shape=shape) 

41 net, mean pixel = vgg.net (network, image) 

42 content pre = np.array([vgg.preprocess(content, mean pixel)]) 
43 content features[CONTENT LAYER] - net[CONTENT LAYER].eval( 

44 feed dict-(image: content рге)) 


46 # compute style features in feedforward mode 

47 for i in range (len (styles)): 

48 g = tf.Graph() 

49 with g.as default(), g.device('/cpu:0'), tf.Session() as sess: 
50 image = tf.placeholder('float', shape-style shapes [i]) 

51 net, _ = vgg.net(network, image) 

52 style pre - np.array([vgg.preprocess(styles[i], mean pixel)]) 
53 for layer in STYLE LAYERS: 

54 features = net[layer].eval(feed dict-(image: style pre]) 

55 features = np.reshape(features, (-1, features .shape [3] ) ) 
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56 gram = np.matmul(features.T, features) / features.size 

57 style features[i] [layer] = gram 

58 

59 # make stylized image using backpropogation 

60 with tf.Graph().as default(): 

61 if initial is None: 

62 noise - np.random.normal(size-shape, scale-np.std(content) * 0.1) 

63 initial = tf.random normal(shape) * 0.256 

64 else: 

65 initial - np.array([vgg.preprocess(initial, mean pixel)]) 

66 initial = initial.astype('float32') 

67 image - tf.Variable(initial) 

68 net, = vgg.net (network, image) 

69 

70 # content loss 

71 content loss = content weight * (2 * tf.nn.12 loss( 

72 net [CONTENT LAYER] - content features[CONTENT LAYER]) / 

73 content features[CONTENT LAYER].size) 

74 # style loss 

75 style loss = 0 

76 for i in range(len(styles)): 

77 style losses - [] 

78 for style layer in STYLE LAYERS: 

79 layer - net[style layer] 

80 , height, width, number - map(lambda i: i.value, layer.get shape()) 

B1 size - height * width * number 

82 feats - tf.reshape(layer, (-1, number)) 

83 gram - tf.matmul(tf.transpose(feats), feats) / size 

84 style gram - style features[i] [style layer] 

85 style losses.append(2 * tf.nn.12 loss(gram - style gram) / style gram.size) 

86 style loss += style weight * style blend weights[i] * reduce(tf.add, style _ 
losses) 

87 # total variation denoising 

88 tv y size = tensor size(image[:,1:,:,:]1) 

89 tv x size - tensor size(image[:,:,1:,:]) 

90 tv loss - tv weight *2 * ( 

91 (tf.nn.12 loss(image[:,1:,:,:] - image[:,:shape[1]-1,:,:]) / 

92 tv y size) + 

93 (tf.nn.12 loss(image[:,:,1:,:] - image[:,:,:shape[2]-1,:]) / 

94 tv x size)) 

95 # overall loss 

96 loss = content loss + style loss + tv loss 

97 

98 # optimizer setup 

99 train step = tf.train.AdamOptimizer(learning rate) .minimize(loss) 

100 

101 def print progress(i, last-False): 

102 stderr.write('Iteration $d/t&dWMn' $ (i + 1, iterations)) 
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103 if last or (print iterations and i % print iterations == 0): 
104 stderr.write(' content loss: %g\n' $ content loss.eval()) 
105 stderr.write(' style loss: %g\n' $ style loss.eval()) 

106 stderr.write(' tv loss: %9\п' $ tv loss.eval()) 

107 stderr.write(' total loss: %д\п' % loss.eval()) 


109 4 optimization 

110 best loss - float('inf') 

111 best - None 

112 with tf.Session() as sess: 

113 sess.run(tf.global variables initializer()) 
114 for i in range(iterations): 

115 last step = (i -- iterations - 1) 

116 print progress(i, last-last step) 

117 train step.run() 


119 if (checkpoint iterations and i $ checkpoint iterations == 0) or last step: 
120 this loss - loss.eval() 

121 if this loss « best loss: 

122 best loss = this loss 

123 best - image.eval() 

124 yield ( 

125 (None if last step else i), 

126 vgg.unprocess (best.reshape(shape[1:]), mean pixel) 

127 ) 


130 def tensor size(tensor): 
131 from operator import mul 
132 return reduce(mul, (d.value for d in tensor.get shape()), 1) 


10 ~ 11 47, 5E X. content 和 style 需要 从 哪些 层 恢 复 。 

38 一 44 行 ， 通 过 前 向 传播 计算 content features. 

47 一 57 行 ， 通 过 前 向 传播 计算 style features. 

60 ~ 107 行 ， 通 过 方向 更 新 来 生成 风格 图 片 。 

61 一 67 行 ， 随 机 生成 一 张 初始 化 图 片 与 content 图 片 的 shape 一 样 。 或 者 使 用 你 指定 
的 初始 化 图 片 ， 给 这 你 指定 的 初始 化 图 片 做 一 下 均值 ， 转 换 下 类 型 。 

68 行 ， 把 初始 化 图 片 过 veg 网 络 。 

71 ~ 7347, Н: content loss， 论 文中 的 方程 如 下 : 


La (Ps 4s) = QL ney (Ps X) + BL conten (45) 
A => (5 - 2) 
iJ 
这 里 netiCONTENT LAYER] 就 是 下 。 
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content features[CONTENT LAYER] 就 是 P。 

除 以 content features[CONTENT LAYER].size 相当 于 做 了 归 一 化 ， 因 为 每 层 的 feature 
map 大 小 会 不 相同 。 

tf.nn.12_los 就 是 平方 后 加 和 。 

content_weight 就 是 totol loss 里 的 阿尔 法 。 

75 ~ 86 47, ЇЕ style loss， 和 上 面 计 算 style loss， 对 照 论 文 里 的 方程 ， 一 步 一 步 
求解 : 


G = 5 FF, 
k 


] 2 
E, Tyg 240 - 4) 


ij 


PRO L 
РАР (а, х) = 2 wE, 


88 ~ 94 行 这 里 的 tv. loss 在 论文 中 没有 提 到 ， 就 是 Total Variation ， 在 图 片 去 噪 中 有 应 
用 。 把 图 片 相 邻 像素 相 减 ， 如 果 值 很 大 表明 噪声 大 ， 模 型 学 习 得 不 够 好 。 
96 行 ， 最 后 的 总 loss 是 content loss + style loss + tv loss， 比 论文 中 多 了 一 个 tv loss; 


L, (Ps a, x)= AL open (p.x)* BL. (а,х) 
99 行 ， 计 算 梯 度 。 
101 ~ 107 行 ， 打 印 训练 信息 。 
112 一 128 行 ， 开 始 训练 。 
运行 方式 : 
Pre-trained УСО network 可 以 自行 下 载 ， 大 约 500 多 MB ， 放 在 neural. style 根 目 目录 。 


wget http://www.vlfeat.org/matconvnet/models/betal6/imagenet-vgg-verydeep-19.mat 


在 python2.7/python3.6 下 都 可 以 执行 ， 其 中 --content 后 面 的 图 片 就 是 你 准备 要 改变 风 
格 的 图 片 ，--styles 后 面 的 图 片 是 你 准备 的 大 师 风格 图 。 


python neural style.py --content examples/1-content.jpg --Styles examples/1- 
style.jpg --output output.jpg 


不 过 ， 友 情 提 示 ， 当 大 师 “ 附 体 ”之 后 风格 不 见得 和 你 想象 得 一 样 ， 请 慎重 。 笔 者 就 
曾经 试 着 用 过 一 些 别 的 大 师 风格 ， 结 果 效果 异常 惊悚 一 一 比如 一 位 叫 草 间 弥 生 8 的 日 本 艺术 
家 的 作品 , 哮 ， 就 这 个 麻 点 满 身 的 草帽 。 


Ө 草 间 弥生 (Yayoi Kusama)， 日 本 艺术 家 。 草 间 弥 生 的 创作 被 评论 家 归 类 到 相当 多 的 艺术 派别 ， 包 含 了 女权 
主义 、 极 简 主 义 、 超 现实 主义 、 原 生 艺术 、 普 普 艺术 和 抽象 表现 主义 等 。 
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当时 用 这 个 去 处 理 同事 的 照片 ， 险 些 绝 交 。 为 了 保证 本 书 顺利 出 版 ， 我 还 是 决定 不 发 
处 理 完 的 结果 ， 大 家 有 兴趣 自己 玩 吧 。 总 之 ， 在 深度 学 习 的 很 多 分 支 领域 ， 很 多 小 项 目 虽 
然 不 具备 非常 明确 的 变现 途径 ,但 是 却 仍 旧 让 我 们 觉得 它 很 好 玩 。 嗯 ， 玩 吧 ， 在 玩 的 过 程 
中 体验 深度 学 习 不 就 是 一 件 非常 有 趣 的 事情 吗 ? 


13.4 ”小结 


到 此 ， 本 书 的 主体 部 分 就 结束 了 。 然 而 对 于 深度 学 习 的 研究 过 程 其实 才 刚刚 开 了 一 个 
小 头 ， 还 有 很 多 的 内 容 、 很 多 的 方法 我 们 还 没有 来 得 及 去 尝试 。 

当前 的 深度 学 习 的 研究 领域 有 很 多 ， 有 的 是 应 用 层 的 一 一 目的 是 为 了 改进 模型 在 应 用 
中 表现 的 细微 差距 ; 有 的 是 工程 层 的 一 一 研究 以 现 有 的 硬件 条 件 和 理论 基础 如 何 能 够 以 更 
快捷 、 更 安全 、 更 低能 耗 的 方式 完成 大 规模 并 行 计算 或 其 他 问题 的 ， 有 的 是 理论 层 的 一 一 
这 一 层 是 尝试 研究 一 些 更 深层 面 的 学 习 能 力 或 者 实现 方法 ， 例 如 是 否 能 够 通过 直接 求解 解 
析 解 的 方式 来 替代 梯度 下 降 法 做 实现 等 ， 当 然 这 个 层面 的 理论 突破 是 最 难 的 。 不 过 这 个 层 
面 的 理论 一 旦 有 一 点 突破 的 话 ， 可 能 真 的 就 会 迎 来 人 工 智能 的 奇 点 ， 因 为 相当 于 计算 能 力 
直接 提升 五 六 个 数量 级 或 更 多 。 

总 而 言 之 ， 路 还 非常 物 远 。 大 家 在 这 条 路 上 可 能 会 相依 为 伴 到 退休 ， 所 以 不 要 担心 失 
业 的 问题 ， 你 需要 担心 的 只 是 在 越 来 越 多 的 人 投身 深度 学 习 和 人 工 智 能 领域 的 研究 中 怎么 样 
领先 半 个 身 位 而 已 。 嗯 ， 努 力 吧 ， 还 有 什么 工作 比 这 种 没有 和 天花板 的 工作 更 有 意思 的 呢 ? 


ww ai bbt. com 850000060 


La = prods A NA 
VMware Workstation 的 安装 


1. VMware 简介 

VMware 是 由 美国 著名 的 虚拟 化 产品 提供 商 WMware 提供 的 虚拟 化 软件 产品 。 它 基于 
图 形 化 管理 ， 使 用 非常 简单 ， 对 虚拟 机 指令 的 执行 效率 也 非常 高 。 

VMware 提供 了 多 个 版 本 以 应 用 于 不 同 的 场景 ， 其 中 我 们 用 到 的 是 它 的 VMware 
Workstation， 这 个 版 本 主要 是 用 于 个 人 电脑 的 虚拟 机 使 用 。 

安装 VMware Workstation 之 后 我 们 可 以 在 不 破坏 当前 Windows 环境 的 情况 下 ， 使 用 资 
源 隔离 的 办 法 再 安装 一 个 类 似 沙 箱 环 境 的 Windows 或 Linux 系统 。 


2. 安装 准备 工作 

(1) 硬件 配置 需求 

在 安装 软件 之 前 用 户 需要 准备 足够 的 磁盘 空间 和 运行 时 所 占用 的 内 存 ， 为 了 保证 大 数 
据 软件 流畅 运行 ， 请 至 少 保证 如 下 硬件 配置 : 

(J CPU: Intel Core 13 

Q 内 存 : 4.00 GB 

О 硬盘 空间 : 50GB 

(2) VMware 下 载 

大 家 可 以 从 VMware 软件 的 官方 网 站 下 载 最 新 版 本 的 VMware。 最 新 版 本 为 VMware 
Workstation 12， 下 载 地 址 如 下 : http://www.vmware.com/products/workstation/workstation- 
evaluation, 

如 果 读 者 使 用 的 是 Windows 操作 系统 ， 可 以 点 击 “Download Now” 按 钮 进行 下 载 ， 
网 页 内 容 如 下 图 所 示 ; 
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WORKSTATION 





VMware Workstation 为 商业 软件 ， 用 户 可 以 免费 试用 30 天 。 
(3) 安装 过 程 
下 载 完 成 后 ， 进 入 安装 环节 ， 首 先 双 击 安装 文件 ， 会 进入 安装 向 导 界 面 ， 如 下 图 所 示 。 


Jj VMware Workstation Pro =% 


WORKSTATION БҮ ШҮ НАР VMware Workstabon Pro o 
Fi —Ъ ЙЕ, DAREA”. 


Sein 1998-20 16 VMware. э. P iuri f" 
o VMware 
UN RAS REA 


tto; feces vores: com soo fates ts en 


C20] әм 





点 击 “ 下 一 步 ” 按 钮 ， 进 入 VMware 最 终 用 户 许可 协议 界面 ， 勾 选 “ 我 接受 许可 协议 
中 的 条 款 ”"， 点击“ 下 一 步 ” 按 钮 ， 如 下 图 所 示 。 


其 VMware Workstation Pro sz$& 


килин 
К аа e 





VMWARE 最 终 用 户 许可 协议 


请 注意 ， 在 本 软件 的 安装 过 程 中 无 论 可 能 会 出 现任 何 条 
， 使 用 本 软件 都 将 受 此 最 终 用 户 许可 协议 各 条 款 的 约 


要 信息 ， 请 仔细 阅读 ， 您 一 日 下 载 、 安 装 或 使 用 本 软 
件 ， 您 (自然 人 或 法 人 ) 即 同音 接受 本 最 终 用 户 许可 协议 
(" 本 协议 =) 的 约 东 。 如 果 您 不 同音 本 协议 的 条 款 ， 请 义 下 „ 


ARREST hehe (AD 
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可 以 选择 默认 安装 的 位 置 ， 由 于 最 终 安装 实验 所 用 的 虚拟 机 的 位 置 可 以 和 虚拟 机 软 
fF VMware 放置 的 位 置 不 同 ， 我 们 可 以 直接 放置 在 默认 的 C 磁盘 上 ,点 击 下 一 步 ， 如 下 图 
所 示 。 





点 击 “ 下 一 步 ”按钮 ， 在 本 实验 中 建议 不 色 选 “启动 时 检查 产品 更 新 ”和 “帮助 完善 
VMware Workstation Pro”。 





为 了 使 用 方便 ， 可 以 勾 选 在 “桌面 ”创建 WMware Workstation Pro 的 快捷 方式 ， 如 下 
图 所 示 。 
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最 后 点 击 “ 安 装 ” 按 钮 ， 之 后 等 待 进度 即 可 ， 如 下 图 所 示 。 
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T A E A TET Ü bu йй 虚拟 机 的 安装 


打开 已 经 安装 好 的 VMware Workstation 虚拟 机 软件 ， 在 初始 界面 点 击 “ 创 建新 的 虚拟 
机 ”， 如 下 图 所 示 。 








在 本 书 所 使 用 的 实验 环境 中 可 以 直接 选择 “典型 (推荐 ”， 然 后 点 击 “ 下 一 步 ”按钮 ， 
如 下 图 所 示 。 
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可 以 选择 “安装 程序 光盘 映像 文件 (iso)”, 在 下 面 的 文件 框 中 将 内 容 指定 为 刚刚 我 们 下 
载 的 Ubuntu16 的 DVD 镜像 文件 所 存放 的 地 址 ， 如 下 图 所 示 。 








在 这 个 版 本 的 VMware Workstation 中 支持 了 简易 安装 模式 ， 为 了 实验 方便 ， 我 在 这 里 
把 Linux 虚拟 机 的 名 称 、 用 户 名 、 密 码 ， 全 部 指定 成 为 “data”， 如 下 图 所 示 。 
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指定 虚拟 机 名 称 〈 这 是 在 VMware 管理 中 使 用 的 名 称 ， 不 是 其 主机 名 ) 和 安装 位 置 ， 如 
下 图 所 示 。 





给 虚拟 机 一 个 磁盘 大 小 ， 我 这 边 给 的 是 100GB ( 见 下 图 )， 虚 拟 机 会 用 按 需 分 配 的 方式 
进行 动态 扩展 ， 所 以 不 用 在 一 开始 就 担心 自己 的 磁盘 不 够 ，100GB 这 样 设置 一 般 不 会 报错 ， 
如 下 图 所 示 。 
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最 后 点 击 “ 完 成 ”按钮 ， 开 始 引 导 虚 拟 机 启动 。 为 了 加 快 安装 速度 和 实验 的 速度 ， 建 
议 在 硬件 资源 充足 的 情况 下 赋予 其 更 多 的 硬件 资源 ， 我 在 这 里 给 了 4 个 CPU 内 核 和 8GB 
的 内 存 。 通 常 建议 不 要 把 超过 50% 以 上 的 内 存 和 CPU 资源 划分 给 虚拟 机 ， 如 下 图 所 示 。 








在 简易 安装 模式 下 Linux 会 自动 进行 引导 。 之 后 就 等 待 Linux 自动 一 步 一 步 进行 安装 ， 
不 用 人 为 干预 。 
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到 此 步 为 止 已 经 引导 进入 Ubuntu 桌面 了 ， 如 下 图 所 示 。 


© data! - VMware Workstation 
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Python 语言 简介 


Python 是 一 种 面向 对 象 的 解释 型 计算 机 程序 设计 语言 ， 由 Guido van Rossum 于 1989 
年 发 明 ， 第 一 个 公开 发 行 版 发 行 于 1991 年 。 

Python 是 纯粹 的 自由 软件 ， 它 的 源 代 码 和 解释 器 CPython 遵循 GPL ( GNU General 
Public License) 协议 。 

Python 和 C 语言 不 一 样 ， 它 是 一 种 脚本 语言 。C 语言 在 写 完 源 代码 后 是 需要 编译 成 二 
进 制 代码 才能 够 执行 的 ; Python 则 不 用 ， 它 在 生产 环境 中 出 现 仍旧 是 源 代 码 的 .py 文件 形 
式 ， 在 执行 的 瞬间 才 由 Python 解释 器 将 源 代码 转换 为 字 节 码 ， 然 后 再 由 Python 解释 器 来 执 
行 这 些 字 节 码 。 

这 种 形式 的 好 处 是 不 用 考虑 平台 系统 的 问题 ， 可 以 和 Java 语言 一 样 “一 次 编写 到 处 执 
行 ” 。 缺 点 也 是 显而易见 的 ， 就 是 每 次 进行 字 节 码 转换 和 字 节 码 执行 没有 直接 执行 二 进 制 的 
效率 高 。 好 在 对 于 执行 效率 苛刻 的 场合 毕竟 较 少 ， 另 外 随 着 计算 机 硬件 能 力 的 提升 ， 执 行 
效率 的 矛盾 也 变 得 不 明显 了 。 

和 其 他 计算 机 语言 一 样 ，Python 语言 也 有 自己 的 一 套 语法 基础 。 有 顺序 、 分 支 、 循 环 、 
调用 的 程序 组 织 结构 ， 以 及 数字 、 字 符 串 、 列 表 、 元 组 、 集 合 等 多 种 数据 类 型 。 我 们 在 这 
里 介绍 一 些 在 实验 中 涉及 的 知识 。 


1. 安装 python 
安装 python 的 方法 不 止 一 种 ，Ubuntu16.04 上 默认 安装 的 是 2.7.12 版 本 ， 可 以 执行 如 
下 命令 查看 : 


data@ubuntu:~$ python -V 
Python 2.7.12 
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如 果 要 安装 3.6.0 版 本 的 话 ， 可 以 这 样 做 : 


data@ubuntu:~$ wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0.tar.xz 
data@ubuntu:~$ xz -d Python-3.6.0.tar.xz 

data@ubuntu:~$ tar -xvf  Python-3.6.0.tar 

data@ubuntu:~$ cd Python-3.6.0 

data@ubuntu: ~$./configure 

data@ubuntu:~$ make 

data@ubuntu:~$ sudo make install 


最 后 用 命令 验证 一 下 : 


data@ubuntu:~/Python-3.6.0$ python3.6 -V 
Python 3.6.0 


2. Hello World 
Python 的 Hello World 与 别 的 计算 机 语言 没什么 区 别 ， 而 且 更 加 简洁 ， 可 以 直接 在 交互 
式 编程 环境 中 写 


print ("Hello, Python!"); 


3. 行 与 缩 进 

Python 脚本 文件 和 普通 的 文本 文件 没有 太 大 区 别 ， 一 般 我 们 喜欢 写成 .py 作为 后 级 的 
方式 。 

#!/usr/bin/python 


# -*- coding: UTF-8 -*- 
# 文件 名 : test.py 


if True: 
print "True" 
else: 
print "False" 
其 中 # 为 注释 标记 ， 如 果 在 一 行 中 使 用 #， 那 么 # 后 的 内 容 是 不 会 被 解释 执行 的 。 
КИЙ if ЯП else 是 分 支 型 语句 ， 当 证 后 的 内 容 为 True (真实 )， 则 执行 让 所 辖 的 部 分 ， 
否则 执行 else 所 辖 的 部 分 。 


© Python 语言 中 是 不 用 begin/end 或 {} 来 表示 执行 段落 的 起 止 的 ， 这 里 的 证 和 else Ж 
要 左 侧 对 齐 ， 用 缩 进 来 表示 段落 所 辖 范围 界限 。 





4. 变量 类 型 
Python 语言 中 标准 的 数据 类 型 有 这 样 几 种 : Numbers (HF), String (字符 串 )、List ( 列 
表 )、Tuple (元 组 )、Dictionary (字典 )。 
下 面 这 段 代码 演示 了 ， 整 数 型 数字 、 浮 点 型 数字 以 及 字符 串 类 型 的 赋值 和 打印 操作 。 
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#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


counter = 100 # 赋值 整数 型 变量 
miles = 1000.0 # 浮 点 型 
name = "John" # 7# # 


print counter 
print miles 
print name 


下 面 这 段 代 码 演示 的 是 列表 类 型 的 操作 ， 列 表 很 像 Java 语言 中 的 数组 ， 只 不 过 列表 允 
许 不 同类 型 的 数据 放 在 同一 个 列表 中 ， 而 数组 不 可 以 一 一 它 只 能 要 求 所 有 的 元 素 类 型 一 致 。 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


list = [ 'abcd', 786 , 2.23, 'john', 70.2] 
tinylist - [123, 'john'] 


print list # 输出 完整 列表 

print list[0] 4 输出 列表 的 第 一 个 元 素 

print list[1:3] # 输出 第 二 个 至 第 三 个 的 元 素 

print list(2:] # 输出 从 第 三 个 开始 至 列表 末尾 的 所 有 元 素 
print tinylist * 2 # 输出 列表 两 次 

print list + tinylist # 打印 组 合 的 列表 


下 面 这 段 代 码 演示 的 是 元 组 类 型 的 操作 。 操 作 方 法 和 列表 很 像 ， 但 是 Python 语法 不 允 
许 对 元 组 中 的 元 素 进行 二 次 赋值 。 它 相当 于 是 只 读 类 型 的 列表 。 


$t! /usr/bin/python 
4 -*- coding: UTF-8 -*- 


tuple = ( 'abcd', 786 , 2.23, 'john', 70.2 ) 
tinytuple = (123, 'john') 


print tuple 4 输出 完整 元 组 

print tuple[0] # 输出 元 组 的 第 一 个 元 素 

print tuple[1:3] # 输出 第 二 个 至 第 三 个 的 元 素 

print tuple[2:] # 输出 从 第 三 个 开始 至 列表 末尾 的 所 有 元 素 
print tinytuple * 2 # 输出 元 组 两 次 

print tuple + tinytuple # 打印 组 合 的 元 组 


下 面 这 段 代码 演示 的 是 字典 类 型 的 操作 。 字 典 类 型 有 些 像 Java 中 的 HashMap， 是 通过 
主键 Key 来 访问 对 应 的 Value 值 ， 而 不 是 靠 下 标 来 访问 。 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


dict = {} т 


ww ai bbt.com ПЦППППППП 


ЮС Python 语言 简介 $e 293 


dict['one'] = "This is опе" 
dict[2] = "This is two" 


tinydict = ('name': 'john','code':6734, 'dept': 'sales') 


print dict['one'] # ЖНЖ 'опе' 的 值 
print dict[2] # 输出 键 为 2 的 值 

print tinydict # 输出 完整 的 字典 

print tinydict.keys() # 输出 所 有 键 
print tinydict.values() # 输出 所 有 值 


5. 循环 语句 
这 段 代码 演示 的 是 while 循环 ，while 循环 后 面 的 条 件 表 示 在 满足 条 件 的 时 候 执行 while 
所 辖 的 程序 段 。 


#!/usr/bin/python 


count = 0 

while (count < 9): 
print 'The count is:', count 
count = count + 1 


print "Good bye!" 
在 上 面 这 段 程序 中 ， 表 示 count<9 的 情况 下 ， 执 行 其 下 面 的 两 行 语句 ， 不 包括 下 面 

这 行 : 

print "Good bye!" 

下 面 这 段 程序 略 显 繁琐 ,不 过 内 容 仍 然 很 简单 。 这 是 循环 的 另 一 种 写法 一 一 for 循环 ， 
for 循环 也 是 一 种 循环 ， 后 面 写 出 的 是 一 个 循环 范围 。 这 里 是 一 个 二 重 循环 ， 也 就 是 两 个 循 
环 发 生 了 其 套 一 一 在 一 个 循环 的 执行 中 有 另 一 个 循环 。 外 层 循 环 是 让 num 在 10 和 20 之 间 
做 循环 ， 内 层 循环 是 i 在 2 和 num 之 间 做 循环 。 


#1 /usr/bin/python 
# -*- coding: UTF-8 -*- 


for num in range(10,20): # 和 迭代 10 Al 20 之 间 的 数字 
for i in range(2,num) : # 根据 因子 迭代 
if numti == 0: # 确定 第 一 个 因子 
j=num/i # 计算 第 二 个 因子 
print '&d 等 于 td * %а' $ (num,i,j) 
break # 跳出 当前 循环 
else: # 循环 的 else 部 分 


print num, ' 是 一 个 质数 ' 


6. 函数 
函数 是 一 种 最 小 单位 的 代码 段 封装 。 关 键 字 是 def，def 后 面 的 printme 是 函数 名 ，str 
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是 参数 名 称 。 这 个 函数 的 内 容 就 是 直接 打印 传人 的 变量 值 。 
下 面 最 后 两 句 是 对 函数 的 调用 。 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


# 定义 函数 

def printme( str ): 
" 打印 任何 传 入 的 字符 串 " 
print str; 
return; 


# MARK 
ргіпсте (" 我 要 调用 用 户 自 定义 函数 1"); 
printme (" 再 次 调用 同一 函数 ") ; 


7. 模块 

模块 是 一 种 大 单位 的 代码 段 集合 ， 例 如 有 一 个 模块 support.py， 它 的 文件 中 有 多 个 函数 
定义 ， 其 中 一 个 叫做 print func 函数 。 在 我 不 对 support.py 这 个 模块 进行 引用 的 时 候 是 不 能 
调用 print func 函数 的 。 上 面 这 段 代 码 中 ，import support 是 导入 support.py 模块 ， 下 面 的 
support.print func("Zara") 是 调用 support 中 的 print 函数 ， 并 传人 变量 "Zara" 作为 参数 。 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


# 导入 模块 
import support 


# 现在 可 以 调用 模块 里 包含 的 函数 了 

support .print func ("Zara") 

这 是 导入 模块 的 另 一 种 写法 ， 区 别 是 它 能 够 导入 一 个 模块 的 一 部 分 而 非 全 部 模块 代码 。 
示例 中 是 指 从 fib 这 个 模块 中 只 导 人 Fibonacci 这 个 函数 。 


from fib import Fibonacci 


8. 小 结 as 

以 上 就 是 Python 语言 中 所 涉及 的 最 基本 的 语法 ， 基 本 是 扣 着 本 书 所 用 的 语法 所 写 。 

而 强大 的 Python 所 支持 的 其 他 内 容 ， 大 家 如 果 有 兴趣 可 以 再 找 一 些 专业 介绍 Python 的 
资料 来 学 习 ， 本 书 对 Python 基本 语法 的 介绍 到 此 为 止 。 

在 本 书 中 我 们 所 列举 的 示例 代码 中 ， 所 涉及 的 库 有 这 样 一些 : 

(1) numpy 

NumPy 系统 是 python 的 一 种 开源 的 数值 计算 扩展 库 。 它 提供 了 许多 高 级 的 数值 编程 
工具 ， 如 和 矩阵 数据 类 型 、 矢 量 处 理 ， 以 及 精密 的 运算 库 ， 专 为 进行 严格 的 数字 处 理 而 产生 。 
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多 为 很 多 大 型 金融 公司 使 用 ， 以 及 核心 的 科学 计算 组 织 如 Lawrence Livermore, NASA 用 它 
处 理 一 些 本 来 使 用 C++，Fortran 或 Matlab 等 所 做 的 任务 。 

(2) matplotlib 

一 个 专业 的 绘图 工具 库 ， 官 方 网 址 在 http://matplotlib.org/。 

它 调用 简单 ， 使 用 非常 方便 ， 在 配合 python 进行 数据 挖掘 和 报表 制作 的 过 程 中 是 一 种 
利器 。 

(3) scipy 

SciPy 是 一 款 方便 、 易 于 使 用 、 专 为 科学 和 工程 设计 的 python THE. 

它 提供 的 内 容 很 丰富 ， 文 件 输入 输出 、 特 殊 函 数 、 线 性 代数 运算 、 快 速 传 里 叶 变 换 、 
统计 与 随机 、 微 分 和 积分 、 图 像 处 理 等 诸多 封装 内 容 。 

官方 网 址 在 : http://www.scipy.org/， 有 兴趣 大 家 可 以 去 了 解 更 多 的 内 容 。 

(4) Scikit-learn 

Scikit-learn 是 最 著名 的 Python 机 器 学 习 库 之 一 。 
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Theano 是 一 款 基于 Python 的 深度 学 习 框 架 ， 性 能 良好 ， 目 前 最 新 版 本 是 0.8.2， 官 方 
网 址 是 http://www.deeplearning.net/software/theano/, 

Theano 支持 目前 主流 的 各 种 神经 网 络 结构 ， 全 连接 前 馈 网 络 、 卷 积 网 络 、 循 环 神经 网 
络 等 。 

安装 Theano 首先 要 满足 其 基本 包 依赖 ， 如 果 是 Python 则 需要 安装 2.6 以 上 的 版 本 ， 
如 果 是 Python3 则 需要 安装 3.3 以 上 的 版 本 。 

还 需要 安装 NumPy 1.7.1, SciPy 0.11 及 以 上 版 本 。 

可 以 直接 使 用 root 用 户 权限 下 载 。 


wget https://github.com/Theano/Theano/archive/master.zip 
解压 缩 : 


unzip master.zip 


安装 : 


cd Theano-master 
pip install Theano -user 
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安装 Keras 


Keras 是 一 个 用 Python 实现 的 可 以 应 用 于 TensorFlow 或 Theano 的 神经 网 络 库 ， 有 良 
好 的 人 机 接口 ， 使 用 方便 。 官 方 网 站 位 于 https://keras.io/。 

Keras 需要 Python 2.7~3.5 版 本 的 支持 。 在 安装 之 前 需要 事先 安装 好 TensorFlow 或 
Theano, 


使 用 root 用 户 权限 下 载 。 
wget https://github.com/fchollet/keras/archive/master.zip 
解压 缩 。 


unzip master.zip 


安装 。 


cd keras-master 
python setup.py install 
pip install keras 
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”安装 CUDA 


1. 显卡 驱动 


输入 命令 : 


lspci | grep NVIDIA 


下 面 就 会 列 出 当前 主机 的 显卡 型 号 以 及 个 数 : 





我 们 这 上 面 有 4 块 Tesla KA0m 的 显卡 。 
输入 uname -a， 查 验 当 前 主机 系统 是 否 为 64 位 。 


uname -а 





确认 后 前 往 英 伟 达 官方 网 站 下 载 本 机 型 号 的 驱动 : 
http://www.nvidia.com/Download/index.aspx?lang-en-us. 


按照 条 件 搜索 相关 显卡 驱动 : 
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NVIDIA Driver Downloads 


Option 1; Manually find drivers for my NVIDIA products. 
Product Type: | Tesla d 2 


Product Series: | K-Series 


Product: Tesla Кайт 
Operating System: | Linux 64-bit 
CUDA Toolkit: | 8,0 


Language: | English (US) 





下 载 文 件 NVIDIA-Linux-x86 64-367.55.run， 执 行 该 文件 ; 
sudo sh NVIDIA-Linux-x86 64 -367.55.run 

安装 成 功 后 运行 nvidia-smi 测试 。 

nvidia-smi 


WD A Se UL HR WC FR. 


Driver Version: 367 
+ 
е-М| Bus-—Id Disp.A 


Cap! 
" 


0000:84:00.0 


I 

I 

+ 

| 

| 

+ 

1 000‹ 
1 

7 

1 

I üMiB / 
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前 往 https://developer.nvidia.com/cuda-75-downloads-archive ЕЖ CUDA 安装 包 。 


根据 系统 版 本 好 找到 适合 的 run 文件 : 


Click on the green buttons that describe your target platform. Only supported 


piattorms wili be shown. 


Coens LCS mE | Mar 05% | 


System 


pes 
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下 载 run 包 : 


Downtoad Target installer for Linux Ubuntu 14.04 х86_64 


сида 7.5.18 linux.run [md5sum: 4b3bcecf0dfc35928a0898793cf3e4c6} 


Installation Instructions: 
1. Run ‘sudo sh сида 7.5.18 linux.run* 
2. Follow the command-line prompts 


The GPU Deployment Kit is available as a separate download here. 


Car furthaocinfarmatinn enn tha inct3slistion Guide for linus Sed tha DDA 





下 载 完 后 运行 命令 : 
sudo sh cuda_7.5.18 linux.run 


根据 提示 完成 安装 ,注意 之 前 因为 已 经 安装 了 驱动 ， 它 提示 要 安装 驱动 的 时 候 可 以 跳 
过 驱动 的 部 分 。 

安装 完成 之 后 重启 : 

sudo reboot 

重启 后 ， 需 要 添加 环境 变量 。 使 用 vim 打开 如 下 文档 : 

sudo vim /etc/profile 

在 文件 未 尾 添加 : 

export PATH-/usr/local/cuda/bin:$PATH 

保存 完成 后 ， 执 行 如 下 命令 使 环境 变量 立即 生效 : 

source /etc/profile 

然后 还 需要 添加 lib 的 路 径 : 

sudo vim /etc/ld.so.conf.d/cuda.conf 

在 文件 中 写 入 如 下 内 容 然 后 保存 : 

/usr/local/cuda/1ib64 

之 后 执行 如 下 命令 使 之 生效 : 


sudo ldconfig 
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3. CUDNN 的 配置 
到 官方 网 站 下 载 cudnn， 有 用 户 名 的 话 直接 登录 ， 没 有 用 户 名 的 话 需 要 注册 登录 ， 
https://developer.nvidia.com/cudnn 。 


点 击 下 载 ， 如 下 图 所 示 : 


The NVIDIA CUDA® Deep Neural Network library (cuDNN) is a GPU-accelerated library of primitives for deep neural 
networks, cuDNN provides highly tuned implementations for standard routines such as forward and backward 
convolution, pooling, normalization, and activation layers, cuDNN is part of the NVIDIA Deep Learning SDK. 






Deep learning researchers and framework developers worldwide rely on cuDNN for high-performance GPU 
acceleration. It allows them to focus on training neural networks and developing software applications rather than 
spending time on low-level GPU performance tuning. cuDNN accelerates widely used deep learning frameworks, 
including Caffe, TensorFlow, Theano, Torch, and CNTK. See supported frameworks for more details, 








cuDNN is freely available to members of the Accelerated Computing Developer Program 


任意 选择 其 中 的 项 目 ， 如 下 图 所 示 : 


Please guide us on how you use this library by completing this short survey. You will directed to the download site 
immediately after completing this form. Thank you! 
What types of data are you working with? 


© Video 
Ө Volumetric 
© Audio & Speech 


Apptication Domain 


© Facial Recognition 
© Action Recognition 
© Big Data 


Deep Learning Framework 


© Blocks 


@ Chainer 


版 本 需要 选择 CUDA7.5 (注意 ， 如 果 你 所 运行 的 工程 需要 其 他 特定 版 本 的 CUDA， 请 
事先 确认 并 下 载 对 应 的 版 本 )， 如 下 图 所 示 。 
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NVIDIA cuDNN is a GPU-acceterated library of primitives for deep neural networks. 


9 1 Agree To the Terms of the cuDNN Software License Agreement 
Please check your framework documentation to determine the recommended version of cuDNN. 
If you are using cuDNN with a Pascal (GTX 1080, GTX 1070], version 5 or later is required. 


Downoad ch чл (мша V. жна, or CHDK 


gust 10, 2016). for CUDA 7.5. 


cuDNN v5.1 Library for Linux 

cuDNN v5.1 Library for Power8 

cuDNN v5.1 Library for Windows 7 

cuDNN v5.1 Library for Windows 10 

cuDNN v5.1 Library for OSX 

CUDNN v5.1 Release Notes 

cuDNN v5.1 Runtime Library for Ubuntu14.04 (Deb) 
CuDNN v5.1 Developer Library for Ubuntu14.04 [Deb] 
cuDNN v5.1 Code Samples and User Guide Linux [Deb] 
cuDNN v5.1 Runtime Library for Power8 [Deb] 

CUDNN v5.1 Developer Library for Power8 [Deb] 
cuDNN v5.1 Code Samples and User Guide Power& [Deb] 





[oig d 27, 2016]. for CUDA 8.0 
下 载 后 解压 缩 ， 转 到 该 目录 下 ， 执 行 : 


sudo cp lib* /usr/local/cuda/lib64/ 
sudo cp cudnn.h /usr/local/cuda/include/ 


更 新 软 链接 : 


cd /usr/local/cuda/libé64/ 

sudo rm -rf libcudnn.so libcudnn.so.5 

sudo ln -s libcudnn.so.5.1.3 libcudnn.so.5 
sudo ln -s libcudnn.so.5 libcudnn.so 
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这 本 书 概念 清晰 ， 语 言 平实 ， 实 例 讲解 丰富 ， 是 一 本 非常 适合 入 门 的 深度 学 习 读 本 ， 尤 其 是 
对 公式 推导 做 了 最 大 程度 的 白话 解释 与 避让 ， 使 得 可 读 性 大 大 增强 。 相 信 每 位 读者 都 能 从 中 汲取 
到 相应 的 知识 与 启发 。 

一 一 李 学 凌 ， 欢 聚 时 代 董 事 长 兼 CEO 


本 书 是 一 本 很 好 的 深度 学 习 入 门 读物 ， 从 机 器 学 习 的 基本 概念 过 渡 到 深度 神经 网 络 的 原理 和 
应 用 ， 并 延伸 到 网 络 的 一 些 变种 和 新 的 特性 。 读 完 此 书 可 以 全 面 了 解 深度 学 习 以 及 TensorFlow 开 
源 框架 的 相关 内 容 ， 你 可 以 感受 到 其 实 深度 学 习 并 不 神秘 ， 人 工 智 能 的 未 来 人 类 完全 可 以 掌控 。 

一 一 朱 频 频 ， 小 | 机 器 人 创始 人 、 总 裁 兼 首席 执行 官 


我 曾经 想 过 写本 书 ， 用 通俗 易 懂 的 方式 介绍 大 数据 与 深度 学 习 的 方方面面 ， 现 在 看 来 不 需要 
了 ， 高 扬 先 生 这 套 白话 系列 图 文 并 成 、 深 入 浅 出 又 不 失学 术 性 ， 非 常 值得 研读 。 
一 一 王 庆 法 ， 阳 光 保 险 集团 大 数据 中 心 首席 架构 师 、 首 席 数据 官 


看 到 了 本 书 ， 笔 者 不 由 眼前 一 亮 。 关 于 技术 观点 的 讲解 即 不 乏 专 业 性 ， 又 以 浅显 的 例子 告诉 
普通 人 ， 机 器 学 习 是 什么 。 一 本 非常 好 的 科普 性 的 技术 著作 ， 希 望 更 多 的 人 可 以 通过 作者 的 文 
字 ， 真 正 理 解 人 工 智能 的 关键 技术 、 深 度 学 习 的 原理 及 实际 未 来 的 前 景 。 也 期 待 更 多 的 爱好 者 ， 
由 此 书 可 以 加 入 到 深度 学 习 工 作 中 ， 为 未 来 人 工 智 能 的 发 展 写 下 浓重 的 一 笔 。 

一 一 王 海 龙 ， 秒 钱 CTO 
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